CN109359186B - 一种确定地址信息的方法、装置和计算机可读存储介质 - Google Patents
一种确定地址信息的方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN109359186B CN109359186B CN201811249564.3A CN201811249564A CN109359186B CN 109359186 B CN109359186 B CN 109359186B CN 201811249564 A CN201811249564 A CN 201811249564A CN 109359186 B CN109359186 B CN 109359186B
- Authority
- CN
- China
- Prior art keywords
- address
- information
- logistics
- training
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 138
- 238000013136 deep learning model Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims description 128
- 238000013507 mapping Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 11
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 230000001788 irregular Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种确定地址信息的方法、装置和计算机可读存储介质,根据地址提取规则,从物流走件信息中选取出信息样本;将信息样本和选取的原始样本,作为训练文本;依据文本数据处理规则,对训练文本进行处理,得到训练集样本;利用该训练集样本对深度学习模型进行训练,以便于通过训练好的深度学习模型分析待处理的物流走件信息的物流地址。在该技术方案中,按照地址提取规则,可以有效的提取出性能良好的信息样本,并且在训练文本中加入原始样本,增加了泛化能力,提升了深度学习模型地址识别的准确性。此外基于深度学习算法构建的深度学习模型,能够在一定程度上理解物流走件信息的上下文关系,进一步提升了地址识别的准确性。
Description
技术领域
本发明涉及物流走件信息技术领域,特别是涉及一种确定地址信息的方法、装置和计算机可读存储介质。
背景技术
目前,各快递公司的物流走件信息中通常直接包含或者隐式包含着地址信息,对物流走件的物流地址进行提取对电子商务公司进行进一步业务分析至关重要。
当前对物流走件信息进行物流地址解析更多采用的是基于地址词库查找的方式。即通过文本切词,将每个分词在地址词库中查找,若该分词为“区县”级别的地址词,则通过地址映射关系转换成对应的城市,并将识别出的多个城市中的第一个城市作为发货城市。
基于地址词库查找的方式是将识别出的第一个城市作为发货城市,因而不能有效理解文本信息中的上下文关系,导致识别错误。例如,对于物流走件信息“快件已揽收,下一站到达杭州市,上一站为肥西县”,往往会将杭州市作为发货城市。
由于区县级别的地址词需要依据区县到城市的映射关系,来将区县的地址词回溯到城市,但是倘若存在区县同名时,即某个区县对应的上级城市有多个时,易出现识别错误的情况,例如:“白云区发往广州分拨中心”,由于包头市下辖区域中也包含白云区,从而导致识别出的城市为“包头市”。
并且基于词库查找的方式,无法识别不规范的地址词,如“哈尔滨市”写为“哈市”,“乌鲁木齐市”写为“乌市”,名称较长的自治州在不同的快递信息中可能有不同的表达,通过建立地址词库不能准确识别所有地址信息。如果将这些不规范的地址词存储到地址词库中,会导致地址词库过于庞大,这时又会存在物流地址解析速度过慢的问题。
可见,如何提升地址识别的准确性,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例的目的是提供一种确定地址信息的方法、装置和计算机可读存储介质,可以提升地址识别的准确性。
为解决上述技术问题,本发明实施例提供一种确定地址信息的方法,包括:
根据地址提取规则,从物流走件信息中选取出信息样本;
将所述信息样本和选取的原始样本,作为训练文本;其中,所述训练文本中包括物流走件信息和物流地址的对应关系;
依据文本数据处理规则,对所述训练文本进行处理,得到训练集样本;
利用所述训练集样本对深度学习模型进行训练,以便于通过训练好的深度学习模型分析待处理的物流走件信息的物流地址。
可选的,所述根据地址提取规则,从物流走件信息中选取出信息样本包括:依据建立的地址词库,利用DFA算法从所述物流走件信息中提取出地址信息;
从所述地址信息中筛选出满足候选条件的候选地址信息;
根据地址映射关系,查找各所述候选地址信息各自所对应的目标地址;
从所有所述物流走件信息中选取出目标地址满足地址唯一性原则的物流走件信息,并将所述满足地址唯一性原则的物流走件信息作为信息样本。
可选的,所述从所有所述物流走件信息中选取出目标地址满足地址唯一性原则的物流走件信息,并将所述满足地址唯一性原则的物流走件信息作为信息样本包括:
判断第一候选地址集中的第一个地址信息对应的目标地址是否唯一;其中,所述第一候选地址集为所有所述物流走件信息中任意一条物流走件信息所对应的候选地址信息的集合;
若是,则将所述第一候选地址集所对应的物流走件信息作为信息样本;
若否,则判断所述第一候选地址集中第二个地址信息对应的目标地址是否与所述第一个地址信息对应的目标地址存在交集;
若是,则判断所述交集的地址与所述第一候选地址集对应的实际地址是否一致;若一致,则将所述第一候选地址集所对应的物流走件信息作为信息样本。
可选的,所述依据文本数据处理规则,对所述训练文本进行处理,得到训练集样本包括:
对所述训练文本中的物流走件信息进行分词处理,得到多个分词;
对各所述分词分配对应的分词标记,对所述训练文本中的物流地址分配对应的地址标记;
存储分词和分词标记的对应关系以及物流地址和地址标记的对应关系,并将所述分词标记和所述地址标记作为训练集样本。
可选的,所述对所述训练文本中的物流地址分配对应的地址标记包括:
利用独热编码处理方式,对所述训练文本中的物流地址分配对应的地址标记。
可选的,在所述将所述分词标记作为训练集样本之前还包括:
判断第一分词标记集中分词标记的总数是否超过预设个数;其中,所述第一分词标记集为所有所述物流走件信息中任意一条物流走件信息所对应的分词标记的集合;
若是,则从所述第一分词标记集中选取出预设个数的分词标记,并执行将所述预设个数的分词标记作为训练集样本的步骤;
若否,则依据所述总数和所述预设个数的差值,在所述第一分词标记集中添加相应个数的分词标记,以使得所述第一分词标记集中分词标记的总数等于所述预设个数,并执行将所述预设个数的分词标记作为训练集样本的步骤。
可选的,所述通过训练好的深度学习模型分析待处理的物流走件信息的物流地址包括:
对待处理的物流走件信息进行分词处理,得到多个分词;
根据分词和分词标记的对应关系,将各所述分词分别转化成向量;
利用训练好的深度学习模型,对所述向量进行分类,得到目标地址标识;
依据物流地址和地址标识的对应关系,获取所述目标地址标识所对应的目的地址。
本发明实施例还提供了一种确定地址信息的装置,包括选取单元、作为单元、处理单元和训练单元;
所述选取单元,用于根据地址提取规则,从物流走件信息中选取出信息样本;
所述作为单元,用于将所述信息样本和选取的原始样本,作为训练文本;其中,所述训练文本中包括物流走件信息和物流地址的对应关系;
所述处理单元,用于依据文本数据处理规则,对所述训练文本进行处理,得到训练集样本;
所述训练单元,用于利用所述训练集样本对深度学习模型进行训练,以便于通过训练好的深度学习模型分析待处理的物流走件信息的物流地址。
可选的,所述选取单元包括提取子单元、筛选子单元、查找子单元和作为子单元;
所述提取子单元,用于依据建立的地址词库,利用DFA算法从所述物流走件信息中提取出地址信息;
所述筛选子单元,用于从所述地址信息中筛选出满足候选条件的候选地址信息;
所述查找子单元,用于根据地址映射关系,查找各所述候选地址信息各自所对应的目标地址;
所述作为子单元,用于从所有所述物流走件信息中选取出目标地址满足地址唯一性原则的物流走件信息,并将所述满足地址唯一性原则的物流走件信息作为信息样本。
可选的,所述作为子单元具体用于判断第一候选地址集中的第一个地址信息对应的目标地址是否唯一;其中,所述第一候选地址集为所有所述物流走件信息中任意一条物流走件信息所对应的候选地址信息的集合;
若是,则将所述第一候选地址集所对应的物流走件信息作为信息样本;
若否,则判断所述第一候选地址集中第二个地址信息对应的目标地址是否与所述第一个地址信息对应的目标地址存在交集;
若是,则将所述第一候选地址集所对应的物流走件信息作为信息样本。
若是,则判断所述交集的地址与所述第一候选地址集对应的实际地址是否一致;若一致,则将所述第一候选地址集所对应的物流走件信息作为信息样本。
可选的,所述处理单元包括分词子单元、分配子单元和存储子单元和作为子单元;
所述分词子单元,用于对所述训练文本中的物流走件信息进行分词处理,得到多个分词;
所述分配子单元,用于对各所述分词分配对应的分词标记,对所述训练文本中的物流地址分配对应的地址标记;
所述存储子单元,用于存储分词和分词标记的对应关系以及物流地址和地址标记的对应关系;
所述作为子单元,用于将所述分词标记和所述地址标记作为训练集样本。
可选的,所述分配子单元具体用于利用独热编码处理方式,对所述训练文本中的物流地址分配对应的地址标记。
可选的,还包括判断单元、截取单元和添加单元;
所述判断单元,用于在所述将所述分词标记作为训练集样本之前,判断第一分词标记集中分词标记的总数是否超过预设个数;若是,则触发所述截取单元;若否,则触发所述添加单元;其中,所述第一分词标记集为所有所述物流走件信息中任意一条物流走件信息所对应的分词标记的集合;
所述截取单元,用于从所述第一分词标记集中选取出预设个数的分词标记,并执行将所述预设个数的分词标记作为训练集样本的步骤;
所述添加单元,用于依据所述总数和所述预设个数的差值,在所述第一分词标记集中添加相应个数的分词标记,以使得所述第一分词标记集中分词标记的总数等于所述预设个数,并执行将所述预设个数的分词标记作为训练集样本的步骤。
可选的,针对所述通过训练好的深度学习模型分析待处理的物流走件信息的物流地址,所述装置还包括分词单元、转化单元、分类单元和获取单元;
所述分词单元,用于对待处理的物流走件信息进行分词处理,得到多个分词;
所述转化单元,用于根据分词和分词标记的对应关系,将各所述分词分别转化成向量;
所述分类单元,用于利用训练好的深度学习模型,对所述向量进行分类,得到目标地址标识;
所述获取单元,用于依据物流地址和地址标识的对应关系,获取所述目标地址标识所对应的目的地址。
本发明实施例还提供了一种确定地址信息的装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述确定地址信息的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述确定地址信息的方法的步骤。
由上述技术方案可以看出,根据地址提取规则,从物流走件信息中选取出信息样本;将信息样本和选取的原始样本,作为训练文本;其中,训练文本中包括物流走件信息和物流地址的对应关系;依据文本数据处理规则,对训练文本进行处理,得到训练集样本;利用该训练集样本对深度学习模型进行训练,以便于通过训练好的深度学习模型分析待处理的物流走件信息的物流地址。在该技术方案中,按照设定的地址提取规则,可以有效的提取出性能良好的信息样本,并且在训练文本中加入原始样本,增加了模型训练的泛化能力,提升了深度学习模型地址识别的准确性。此外基于深度学习算法构建的深度学习模型,能够在一定程度上理解物流走件信息的上下文关系,进一步提升了地址识别的准确性。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种确定地址信息的方法的流程图;
图2为本发明实施例提供的一种确定地址信息的装置的结构示意图;
图3为本发明实施例提供的一种确定地址信息的装置的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种确定地址信息的方法。图1为本发明实施例提供的一种确定地址信息的方法的流程图,该方法包括:
S101:根据地址提取规则,从物流走件信息中选取出信息样本。
每条物流走件信息一般对应有多个物流地址,这些物流地址可以划分为发货地址、收货地址和中转地址。为了便于后续介绍,在本发明实施例中,均以确定物流走件信息中的发货地址为例,展示说明。
在实际应用中,发货地址可能是一个城市中某个区的某个街道,或者是一个城市中某个区县地址。为了实现对发货地址的统一化管理,在具体实现中,可以均以出发地所属的城市作为发货地址,例如,物品由“河北省、石家庄市、桥西区”发出,则可以将“石家庄市”作为发货地址。
在本发明实施例中,采用基于深度学习算法构建的深度学习模型对物流走件信息中的地址信息进行提取。在训练深度学习模型时,需要构造训练集样本,训练集样本的优劣直接影响了深度学习模型的准确度。
训练集样本来源于已经生成的物流走件信息和其实际对应的物流地址,其中部分训练集样本中的物流走件信息与发货地址并不是真实对应关系,为了剔除这部分的干扰样本获取到优质的训练集样本,可以先对物流走件信息进行筛选。在具体实现中,可以设定地址提取规则,在该地址提取规则中可以包含对物流走件信息进行筛选的依据。
依据该地址提取规则,将物流走件信息中提取出的地址和该物流走件信息实际对应的物流地址进行比较,若两地址一致,则认为物流走件信息和物流地址是确定的对应关系,并将该样本加入到信息样本中。
S102:将信息样本和选取的原始样本,作为训练文本。
信息样本可以是经过筛选后的优质样本。原始样本可以是未经过筛选的数据样本。
在信息样本和原始样本中每条物流走件信息都有其实际对应的物流地址,相应的,在训练文本中可以包括物流走件信息和物流地址的对应关系,以便于后续进行模型的训练。其中,在训练文本中记录的物流地址为物流走件信息所对应的实际物流地址。
考虑到每条物流走件信息所对应的物流地址往往有多个,因此,在本发明实施例中,可以有针对性的选取某个地址作为物流地址,例如,当需要利用深度学习模型提取物流走件信息中的发货地址时,则可以在模型训练阶段,将每条物流走件信息与其实际对应的发货地址的对应关系记录在训练样本中。
在实际应用中,可以通过地址提取规则对100万条退货物流走件信息进行地址解析,将解析得到的发货地址与用户下单购货时填写的收件城市进行对比,若一致,将可以该条物流走件信息与收件城市加入训练集样本。
在本发明实施例中,在信息样本的基础上增加原始样本作为训练文本,可以增加模型训练的泛化能力,从而进一步提升模型的精确度。
由于物流走件信息与真实地址不匹配的情况较少,因而退货物流的发货地址大部分与用户下单时填写的收件城市相同,即便有少量不相同的样本,对后续模型训练不会产生太多的负面影响。因此,为了增加模型的泛化能力,可以提取100万条退货物流走件信息及其对应的用户下单购货时填写的收件地址作为原始样本加入训练集样本中。
S103:依据文本数据处理规则,对训练文本进行处理,得到训练集样本。
训练文本中包含的是文本形式的数据,在对深度学习模型进行训练时,需要将这些文本数据转化成模型可识别的数值形式。
文本数据处理规则包含了将训练文本进行数值转化的方式。在具体实现中,可以对文本数据中的物流走件信息进行分词处理,得到多个分词;对各分词分配对应的分词标记,对训练文本中的物流地址分配对应的地址标记;其中,分词标记和地址标记可以采用数字表示。完成分词标记和地址标记的分配后,可以存储分词和分词标记的对应关系以及物流地址和地址标记的对应关系,并将分词标记和地址标记作为训练集样本。
对物流走件信息进行分词处理时,可以采用jieba分词工具,并且在分词处理时可以删除停用词以及非中文字符,其中,停用词可以是物流走件信息中的常用词,例如,快件、已揽收、已发货、准备发往、中转发出等词语。
在具体实现中,在对训练文本中的物流地址分配对应的地址标记时,可以采用独热编码处理方式。
在本发明实施例中,在为各分词分配了对应的分词标记,以及对训练文本中的物流地址分配了对应的地址标记后,需要将分词和分词标记的对应关系以及物流地址和地址标记的对应关系进行存储,以便于后续利用训练好的深度学习模型进行物流地址的提取时,可以依据该对应关系,将物流走件信息所对应的分词转化为深度学习模型可识别的数值向量,并且在模型确定出地址标记后,可以依据对应关系最终确定出物流地址。
S104:利用训练集样本对深度学习模型进行训练,以便于通过训练好的深度学习模型分析待处理的物流走件信息的物流地址。
在完成深度学习模型的训练后,便可以利用该深度学习模型对待处理的物流走件信息进行物流地址的提取。
以一条待处理的物流走件信息为例,可以先对待处理的物流走件信息进行分词处理,得到多个分词;根据分词和分词标记的对应关系,将一条物流走件信息的文本形式转化成数值向量;其中,数值向量是各分词所对应的分词标记的集合。利用训练好的深度学习模型,对向量进行分类,得到目标地址标识。依据物流地址和地址标识的对应关系,可以获取目标地址标识所对应的目的地址。
依据上述S103的介绍可知,在深度学习模型的训练阶段,建立了物流地址和地址标识的对应关系,相应的,在后续利用该深度学习模型对待处理的物流走件信息进行物流地址的提取时,会输出与该条物流走件信息相匹配的地址标识,为了便于与物流地址和地址标识的对应关系中的地址标识相区分,可以将该地址标识称作目标地址标识。
以提取物流走件信息中的发货地址为例,每条物流走件信息都有其对应的一个发货地址,在本发明实施例中,在选取训练集样本时,需要将信息不规范或者存在信息错误的物流走件信息删除,以获取更加优质的训练集样本。
考虑到物品从出发地到目的地的运输过程中经过的地区往往有多个,也即在一条物流走件信息中包含的物流地址往往有多个,其中,这些物流地址具体可以为区县地址、市地址或省地址等。
因此,在选取优质的训练集样本时,可以基于区县名称、市名称和省名称以及三者之间的映射关系,预先建立地址词库,然后依据建立的地址词库,利用DFA算法从物流走件信息中提取出地址信息。
基于确定有穷自动机算法(Deterministic Finite Automaton,DFA)可以识别出物流走件信息中所有区县及以上的地址信息。
当提取出地址信息后,则可以从地址信息中筛选出满足候选条件的候选地址信息;根据地址映射关系,查找各候选地址信息各自所对应的目标地址。
考虑到百家姓可能会对地址信息的提取造成影响,在具体实现中,也可以预先构建百家姓集合,当一条物流走件信息的地址信息前存在的是百家姓中的名称时,则说明该条物流走件信息不满足候选条件,无法作为候选地址信息。
除了受百家姓影响外,在实际应用中,一些其它特殊文字,也可能会对物流走件信息的地址提取产生影响,例如,“路”字等。因此,当一条物流走件信息的地址信息后面存在的是这些特殊文字时,则说明该条物流走件信息不满足候选条件,无法作为候选地址信息。
目标地址可以是各候选地址信息所属的城市和省份。
地址映射关系中记录了各区县所属的城市和省份,将候选地址信息中包含有区县地址时,则可以依据该地址映射关系,查找到该区县地址所对应的城市和省份;将候选地址信息中包含有城市地址时,则可以依据该地址映射关系,查找到该城市地址所对应的省份。
依据于地址映射关系,可以获取到各候选地址信息所对应的城市和省份。
由于不同的省市之间可能会存在相同的区县名称,例如,“西湖区”既能指向“杭州市”,也能指向“南昌市”。因此,一个候选地址信息所对应的目标地址可能会有多个。
为避免相同区县名称映射到“市”时发生混乱,可以对目标地址的唯一性进行判断。
在本发明实施例中,是以一条物流走件信息作为一个处理单元,经过上述处理后,每条满足候选条件的物流走件信息都会有其对应的一个候选地址集合,在该候选地址集合中包含有相应的候选地址信息。
当查找到各候选地址信息各自所对应的目标地址后,则可以从所有物流走件信息中选取出目标地址满足地址唯一性原则的物流走件信息,并将满足地址唯一性原则的物流走件信息作为信息样本。
以所有物流走件信息中任意一条物流走件信息所对应的候选地址信息的集合即第一候选地址集合为例,在具体实现中,可以判断第一候选地址集中的第一个地址信息对应的目标地址是否唯一。
当第一个地址信息对应的目标地址唯一时,即第一个地址信息对应的目标地址只有一个时,则说明第一候选地址集所属的物流走件信息的目标地址满足地址唯一性原则,此时可以将第一候选地址集所对应的物流走件信息作为信息样本。
当第一个地址信息对应的目标地址不唯一时,即第一个地址信息对应的目标地址有多个时,此时可以进一步判断第一候选地址集中第二个地址信息对应的目标地址是否与第一个地址信息对应的目标地址存在交集。
当存在交集时,则进一步判断交集的地址与第一候选地址集对应的实际地址是否一致;若一致,则说明物流走件信息与实际对应的物流地址具有确定的对应关系,即第一候选地址集所属的物流走件信息的目标地址满足地址唯一性原则,此时可以将第一候选地址集所对应的物流走件信息作为信息样本。相应的,当不存在交集时,则说明第一候选地址集所属的物流走件信息的目标地址不满足地址唯一性原则,此时无法将第一候选地址集所对应的物流走件信息作为信息样本。
需要说明的是,在本发明实施例中,除了基于深度学习算法构建深度学习模型外,也可以采用长短期记忆神经网络构建深度学习模型。
由上述技术方案可以看出,根据地址提取规则,从物流走件信息中选取出信息样本;将信息样本和选取的原始样本,作为训练文本;其中,训练文本中包括物流走件信息和物流地址的对应关系;依据文本数据处理规则,对训练文本进行处理,得到训练集样本;利用该训练集样本对深度学习模型进行训练,以便于通过训练好的深度学习模型分析待处理的物流走件信息的物流地址。在该技术方案中,按照设定的地址提取规则,可以有效的提取出性能良好的信息样本,并且在训练文本中加入原始样本,增加了模型训练的泛化能力,提升了深度学习模型地址识别的准确性。此外基于深度学习算法构建的深度学习模型,能够在一定程度上理解物流走件信息的上下文关系,进一步提升了地址识别的准确性。
以一条物流走件信息为例,对该物流走件信息进行分词处理后,得到的分词个数往往有多个,分词越多,分配的分词标识也就越多,相应的,依据分词标识对深度学习模型进行训练的工作量就越大。
因此,在本发明实施例中,可以对训练集样本中每条物流走件信息所对应的分词标识的个数进行限定。具体的,可以在将分词标记作为训练集样本之前,先判断第一分词标记集中分词标记的总数是否超过预设个数;其中,第一分词标记集为所有物流走件信息中任意一条物流走件信息所对应的分词标记的集合。
预设个数可以依据实际需求进行设定,例如,可以设置为25个。
当第一分词标记集中分词标记的总数超过预设个数时,则可以从第一分词标记集中选取出预设个数的分词标记,并执行将预设个数的分词标记作为训练集样本的步骤;
当第一分词标记集中分词标记的总数未超过预设个数时,则可以依据总数和预设个数的差值,在第一分词标记集中添加相应个数的分词标记,以使得第一分词标记集中分词标记的总数等于预设个数,并执行将预设个数的分词标记作为训练集样本的步骤。
以数字作为分词标记为例,在为各分词分配分词标识时可以采用正整数作为分词标记,而添加的分词标记可以用数字0表示。
通过控制训练集样本中各物流走件信息所对应的分词标识的个数,可以有效控制模型训练阶段的数据处理量,并且依据预设个数可以对训练集样本中各分词标识进行统一的管理,以实现分词标识形式的统一。
图2为本发明实施例提供的一种确定地址信息的装置的结构示意图,包括选取单元21、作为单元22、处理单元23和训练单元24;
选取单元21,用于根据地址提取规则,从物流走件信息中选取出信息样本;
作为单元22,用于将信息样本和选取的原始样本,作为训练文本;其中,训练文本中包括物流走件信息和物流地址的对应关系;
处理单元23,用于依据文本数据处理规则,对训练文本进行处理,得到训练集样本;
训练单元24,用于利用训练集样本对深度学习模型进行训练,以便于通过训练好的深度学习模型分析待处理的物流走件信息的物流地址。
可选的,选取单元包括提取子单元、筛选子单元、查找子单元和作为子单元;
提取子单元,用于依据建立的地址词库,利用DFA算法从物流走件信息中提取出地址信息;
筛选子单元,用于从地址信息中筛选出满足候选条件的候选地址信息;
查找子单元,用于根据地址映射关系,查找各候选地址信息各自所对应的目标地址;
作为子单元,用于从所有物流走件信息中选取出目标地址满足地址唯一性原则的物流走件信息,并将满足地址唯一性原则的物流走件信息作为信息样本。
可选的,作为子单元具体用于判断第一候选地址集中的第一个地址信息对应的目标地址是否唯一;其中,第一候选地址集为所有物流走件信息中任意一条物流走件信息所对应的候选地址信息的集合;
若是,则将第一候选地址集所对应的物流走件信息作为信息样本;
若否,则判断第一候选地址集中第二个地址信息对应的目标地址是否与第一个地址信息对应的目标地址存在交集;
若是,则判断所述交集的地址与所述第一候选地址集对应的实际地址是否一致;若一致,则将所述第一候选地址集所对应的物流走件信息作为信息样本。
可选的,处理单元包括分词子单元、分配子单元和存储子单元和作为子单元;
分词子单元,用于对训练文本中的物流走件信息进行分词处理,得到多个分词;
分配子单元,用于对各分词分配对应的分词标记,对训练文本中的物流地址分配对应的地址标记;
存储子单元,用于存储分词和分词标记的对应关系以及物流地址和地址标记的对应关系;
作为子单元,用于将分词标记和地址标记作为训练集样本。
可选的,分配子单元具体用于利用独热编码处理方式,对训练文本中的物流地址分配对应的地址标记。
可选的,还包括判断单元、截取单元和添加单元;
判断单元,用于在将分词标记作为训练集样本之前,判断第一分词标记集中分词标记的总数是否超过预设个数;若是,则触发截取单元;若否,则触发添加单元;其中,第一分词标记集为所有物流走件信息中任意一条物流走件信息所对应的分词标记的集合;
截取单元,用于从第一分词标记集中选取出预设个数的分词标记,并执行将预设个数的分词标记作为训练集样本的步骤;
添加单元,用于依据总数和预设个数的差值,在第一分词标记集中添加相应个数的分词标记,以使得第一分词标记集中分词标记的总数等于预设个数,并执行将预设个数的分词标记作为训练集样本的步骤。
可选的,针对通过训练好的深度学习模型分析待处理的物流走件信息的物流地址,装置还包括分词单元、转化单元、分类单元和获取单元;
分词单元,用于对待处理的物流走件信息进行分词处理,得到多个分词;
转化单元,用于根据分词和分词标记的对应关系,将各分词分别转化成向量;
分类单元,用于利用训练好的深度学习模型,对向量进行分类,得到目标地址标识;
获取单元,用于依据物流地址和地址标识的对应关系,获取目标地址标识所对应的目的地址。
图2所对应实施例中特征的说明可以参见图1所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,根据地址提取规则,从物流走件信息中选取出信息样本;将信息样本和选取的原始样本,作为训练文本;其中,训练文本中包括物流走件信息和物流地址的对应关系;依据文本数据处理规则,对训练文本进行处理,得到训练集样本;利用该训练集样本对深度学习模型进行训练,以便于通过训练好的深度学习模型分析待处理的物流走件信息的物流地址。在该技术方案中,按照设定的地址提取规则,可以有效的提取出性能良好的信息样本,并且在训练文本中加入原始样本,增加了模型训练的泛化能力,提升了深度学习模型地址识别的准确性。此外基于深度学习算法构建的深度学习模型,能够在一定程度上理解物流走件信息的上下文关系,进一步提升了地址识别的准确性。
图3为本发明实施例提供的一种确定地址信息的装置30的硬件结构示意图,包括:
存储器31,用于存储计算机程序;
处理器32,用于执行计算机程序以实现如上述确定地址信息的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述确定地址信息的方法的步骤。
以上对本发明实施例所提供的一种确定地址信息的方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
Claims (8)
1.一种确定地址信息的方法,其特征在于,包括:
根据地址提取规则,从物流走件信息中选取出信息样本;
将所述信息样本和选取的原始样本,作为训练文本;其中,所述训练文本中包括物流走件信息和物流地址的对应关系;
依据文本数据处理规则,对所述训练文本进行处理,得到训练集样本;
利用所述训练集样本对深度学习模型进行训练,以便于通过训练好的深度学习模型分析待处理的物流走件信息的物流地址;
所述根据地址提取规则,从物流走件信息中选取出信息样本包括:
依据建立的地址词库,利用DFA算法从所述物流走件信息中提取出地址信息;
从所述地址信息中筛选出满足候选条件的候选地址信息;
根据地址映射关系,查找各所述候选地址信息各自所对应的目标地址;
从所有所述物流走件信息中选取出目标地址满足地址唯一性原则的物流走件信息,并将所述满足地址唯一性原则的物流走件信息作为信息样本;
所述从所有所述物流走件信息中选取出目标地址满足地址唯一性原则的物流走件信息,并将所述满足地址唯一性原则的物流走件信息作为信息样本包括:
判断第一候选地址集中的第一个地址信息对应的目标地址是否唯一;其中,所述第一候选地址集为所有所述物流走件信息中任意一条物流走件信息所对应的候选地址信息的集合;
若是,则将所述第一候选地址集所对应的物流走件信息作为信息样本;
若否,则判断所述第一候选地址集中第二个地址信息对应的目标地址是否与所述第一个地址信息对应的目标地址存在交集;
若是,则判断所述交集的地址与所述第一候选地址集对应的实际地址是否一致;若一致,则将所述第一候选地址集所对应的物流走件信息作为信息样本。
2.根据权利要求1所述的方法,其特征在于,所述依据文本数据处理规则,对所述训练文本进行处理,得到训练集样本包括:
对所述训练文本中的物流走件信息进行分词处理,得到多个分词;
对各所述分词分配对应的分词标记,对所述训练文本中的物流地址分配对应的地址标记;
存储分词和分词标记的对应关系以及物流地址和地址标记的对应关系,并将所述分词标记和所述地址标记作为训练集样本。
3.根据权利要求2所述的方法,其特征在于,所述对所述训练文本中的物流地址分配对应的地址标记包括:
利用独热编码处理方式,对所述训练文本中的物流地址分配对应的地址标记。
4.根据权利要求2所述的方法,其特征在于,在所述将所述分词标记作为训练集样本之前还包括:
判断第一分词标记集中分词标记的总数是否超过预设个数;其中,所述第一分词标记集为所有所述物流走件信息中任意一条物流走件信息所对应的分词标记的集合;
若是,则从所述第一分词标记集中选取出预设个数的分词标记,并执行将所述预设个数的分词标记作为训练集样本的步骤;
若否,则依据所述总数和所述预设个数的差值,在所述第一分词标记集中添加相应个数的分词标记,以使得所述第一分词标记集中分词标记的总数等于所述预设个数,并执行将所述预设个数的分词标记作为训练集样本的步骤。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述通过训练好的深度学习模型分析待处理的物流走件信息的物流地址包括:
对待处理的物流走件信息进行分词处理,得到多个分词;
根据分词和分词标记的对应关系,将各所述分词分别转化成向量;
利用训练好的深度学习模型,对所述向量进行分类,得到目标地址标识;
依据物流地址和地址标识的对应关系,获取所述目标地址标识所对应的目的地址。
6.一种确定地址信息的装置,其特征在于,包括选取单元、作为单元、处理单元和训练单元;
所述选取单元,用于根据地址提取规则,从物流走件信息中选取出信息样本;
所述作为单元,用于将所述信息样本和选取的原始样本,作为训练文本;其中,所述训练文本中包括物流走件信息和物流地址的对应关系;
所述处理单元,用于依据文本数据处理规则,对所述训练文本进行处理,得到训练集样本;
所述训练单元,用于利用所述训练集样本对深度学习模型进行训练,以便于通过训练好的深度学习模型分析待处理的物流走件信息的物流地址;
所述选取单元包括提取子单元、筛选子单元、查找子单元和作为子单元;所述提取子单元,用于依据建立的地址词库,利用DFA算法从所述物流走件信息中提取出地址信息;所述筛选子单元,用于从所述地址信息中筛选出满足候选条件的候选地址信息;所述查找子单元,用于根据地址映射关系,查找各所述候选地址信息各自所对应的目标地址;所述作为子单元,用于从所有所述物流走件信息中选取出目标地址满足地址唯一性原则的物流走件信息,并将所述满足地址唯一性原则的物流走件信息作为信息样本;所述作为子单元具体用于判断第一候选地址集中的第一个地址信息对应的目标地址是否唯一;其中,所述第一候选地址集为所有所述物流走件信息中任意一条物流走件信息所对应的候选地址信息的集合;若是,则将所述第一候选地址集所对应的物流走件信息作为信息样本;若否,则判断所述第一候选地址集中第二个地址信息对应的目标地址是否与所述第一个地址信息对应的目标地址存在交集;若是,则判断所述交集的地址与所述第一候选地址集对应的实际地址是否一致;若一致,则将所述第一候选地址集所对应的物流走件信息作为信息样本。
7.一种确定地址信息的装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至5任意一项所述确定地址信息的方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述确定地址信息的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811249564.3A CN109359186B (zh) | 2018-10-25 | 2018-10-25 | 一种确定地址信息的方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811249564.3A CN109359186B (zh) | 2018-10-25 | 2018-10-25 | 一种确定地址信息的方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359186A CN109359186A (zh) | 2019-02-19 |
CN109359186B true CN109359186B (zh) | 2020-12-08 |
Family
ID=65346527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811249564.3A Active CN109359186B (zh) | 2018-10-25 | 2018-10-25 | 一种确定地址信息的方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359186B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933797A (zh) * | 2019-03-21 | 2019-06-25 | 东南大学 | 基于Jieba分词及地址词库的地理编码方法和系统 |
CN110674636B (zh) * | 2019-09-02 | 2023-06-20 | 中国南方电网有限责任公司 | 一种用电行为分析方法 |
CN111099363B (zh) * | 2020-01-09 | 2021-10-22 | 湖南视比特机器人有限公司 | 码垛方法、码垛系统和存储介质 |
CN112465036A (zh) * | 2020-11-30 | 2021-03-09 | 上海寻梦信息技术有限公司 | 地址匹配模型的训练方法、代收地址确定方法及相关设备 |
CN113361644B (zh) * | 2021-07-03 | 2024-05-14 | 上海理想信息产业(集团)有限公司 | 模型训练方法、电信业务特征信息提取方法、装置及设备 |
CN117131867B (zh) * | 2022-05-17 | 2024-05-14 | 贝壳找房(北京)科技有限公司 | 房本地址拆分方法、装置、计算机程序产品和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1904906A (zh) * | 2005-07-29 | 2007-01-31 | 富士通株式会社 | 地址识别装置和方法 |
CN105224622A (zh) * | 2015-09-22 | 2016-01-06 | 中国搜索信息科技股份有限公司 | 面向互联网的地名地址提取与标准化方法 |
CN106469372A (zh) * | 2015-08-14 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种地址映射方法及装置 |
CN106528526A (zh) * | 2016-10-09 | 2017-03-22 | 武汉工程大学 | 一种基于贝叶斯分词算法的中文地址语义标注方法 |
CN107066478A (zh) * | 2016-12-14 | 2017-08-18 | 阿里巴巴集团控股有限公司 | 一种虚假地址信息识别的方法及装置 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN107516176A (zh) * | 2016-06-17 | 2017-12-26 | 菜鸟智能物流控股有限公司 | 物流信息处理方法及装置 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN108509441A (zh) * | 2017-02-24 | 2018-09-07 | 菜鸟智能物流控股有限公司 | 一种地址有效性分类器的训练及其验证方法和相关装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831513A (zh) * | 2012-07-20 | 2012-12-19 | 大连理工大学 | 面向集装箱物流领域的物联网应用层中间件与信息融合集成方法 |
US20180025321A1 (en) * | 2015-02-09 | 2018-01-25 | GM Global Technology Operations LLC | System and method of delivery to a mobile purchaser |
US10482119B2 (en) * | 2015-09-14 | 2019-11-19 | Conduent Business Services, Llc | System and method for classification of microblog posts based on identification of topics |
-
2018
- 2018-10-25 CN CN201811249564.3A patent/CN109359186B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1904906A (zh) * | 2005-07-29 | 2007-01-31 | 富士通株式会社 | 地址识别装置和方法 |
CN106469372A (zh) * | 2015-08-14 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种地址映射方法及装置 |
CN105224622A (zh) * | 2015-09-22 | 2016-01-06 | 中国搜索信息科技股份有限公司 | 面向互联网的地名地址提取与标准化方法 |
CN107516176A (zh) * | 2016-06-17 | 2017-12-26 | 菜鸟智能物流控股有限公司 | 物流信息处理方法及装置 |
CN106528526A (zh) * | 2016-10-09 | 2017-03-22 | 武汉工程大学 | 一种基于贝叶斯分词算法的中文地址语义标注方法 |
CN107066478A (zh) * | 2016-12-14 | 2017-08-18 | 阿里巴巴集团控股有限公司 | 一种虚假地址信息识别的方法及装置 |
CN108509441A (zh) * | 2017-02-24 | 2018-09-07 | 菜鸟智能物流控股有限公司 | 一种地址有效性分类器的训练及其验证方法和相关装置 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109359186A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359186B (zh) | 一种确定地址信息的方法、装置和计算机可读存储介质 | |
CN107657267B (zh) | 产品潜在用户挖掘方法及装置 | |
CN109936582B (zh) | 构建基于pu学习的恶意流量检测模型的方法及装置 | |
CN109389270B (zh) | 一种物流对象确定方法、装置和机器可读介质 | |
CN110020433B (zh) | 一种基于企业关联关系的工商高管人名消歧方法 | |
CN107203522B (zh) | 一种恶意订单地址的判定方法和装置 | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
CN110019617B (zh) | 地址标识的确定方法和装置、存储介质、电子装置 | |
CN108153824B (zh) | 目标用户群体的确定方法及装置 | |
CN109388675A (zh) | 数据分析方法、装置、计算机设备及存储介质 | |
CN109002443B (zh) | 一种文本信息的分类方法及装置 | |
CN112118551B (zh) | 设备风险识别方法及相关设备 | |
CN112069276A (zh) | 地址编码方法、装置、计算机设备及计算机可读存储介质 | |
WO2019069505A1 (ja) | 情報処理装置、結合条件生成方法および結合条件生成プログラム | |
CN109508458A (zh) | 法律实体的识别方法及装置 | |
CN111522901A (zh) | 文本中地址信息的处理方法及装置 | |
CN107465643A (zh) | 一种深度学习的网络流量分类方法 | |
CN104598573A (zh) | 一种用户的生活圈提取方法及系统 | |
CN115659226A (zh) | 一种获取app标签的数据处理系统 | |
CN111046669A (zh) | 一种兴趣点的匹配方法、装置及计算机系统 | |
CN104077288B (zh) | 网页内容推荐方法和网页内容推荐设备 | |
CN105335446A (zh) | 一种基于词矢量的短文本分类模型生成方法与分类方法 | |
WO2019069507A1 (ja) | 特徴量生成装置、特徴量生成方法および特徴量生成プログラム | |
CN108108444B (zh) | 一种企业业务单元自适应系统及其实现方法 | |
CN113379169B (zh) | 信息处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |