CN111538914B - 地址信息的处理方法和装置 - Google Patents

地址信息的处理方法和装置 Download PDF

Info

Publication number
CN111538914B
CN111538914B CN201910105093.7A CN201910105093A CN111538914B CN 111538914 B CN111538914 B CN 111538914B CN 201910105093 A CN201910105093 A CN 201910105093A CN 111538914 B CN111538914 B CN 111538914B
Authority
CN
China
Prior art keywords
address
standardized
sample
processed
address information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910105093.7A
Other languages
English (en)
Other versions
CN111538914A (zh
Inventor
刘楚
郑华飞
谢朋峻
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910105093.7A priority Critical patent/CN111538914B/zh
Publication of CN111538914A publication Critical patent/CN111538914A/zh
Application granted granted Critical
Publication of CN111538914B publication Critical patent/CN111538914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Small-Scale Networks (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种地址信息的处理方法和装置。其中,该方法包括:获取待处理地址信息;使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址。本发明解决了现有技术中对裁判结果进行的偏离预警不准确的技术问题。

Description

地址信息的处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种地址信息的处理方法和装置。
背景技术
在物流、警务等领域,地址信息至关重要,因此通常需要积累大量的地址文本。但其中大部分文本是非标准化的,这些非标准文本需要通过对地址元素进行提取、标注、归一、补齐以及去重和标准输出,从而形成标准化地址,进而用于地址的存档和其他服务使用。
目前对地址的标准化处理通常采用如下两种方式:1、人工制订地址标准化的规则。通过观察样本数据制定出人工规则,输入的非标准地址将会依据这些人工规则转化为标准的输出。此种方式在小数据集上较为高效,但是难以应付海量的文本数据,其缺点在于制定的规则难以覆盖所有的文本情况,同时在样本数据增加的时候需要人工跟进制定新的规则,消耗的人力成本较大。2、通过生成的RNN网络,将地址文本标准化视为一个seq2seq的问题,依据输入的非标准文本通过RNN的网络生成式的产生一个标准化的文本输出,但此类网络的缺点在于生成标准化输出通常会制定一个确定大小的词表,输出的序列每一步均为此词表上的一个概率分布,此分布的样本较多,容易产生出不在输入内容当中的词语,同时也难以处理一些输入内容不在预先制定词表当中的非标准地址。由此可知,目前在对地址信息进行标准化处理时,缺乏端到端的解决方案,且目前对地址信息进行标准化处理的准确度均较低。
针对现有技术中对地址信息进行标准化处理的结果不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种地址信息的处理方法,以至少解决现有技术中对裁判结果进行的偏离预警不准确的技术问题。
根据本发明实施例的一个方面,提供了一种地址信息的处理方法,包括:获取待处理地址信息;使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址。
根据本发明实施例的另一方面,还提供了一种地址信息的处理方法,包括:接收检索式,其中,检索式包括文本格式的地址信息;对检索式中的地址信息进行预处理,得到待处理地址信息,其中,待处理地址信息包括满足标准条件的地址词语;使用指示器网络模型对待处理地址信息进行标准化处理,得到标准化地址,其中,根据样本数据训练指示器网络模型。
根据本发明实施例的另一方面,还提供了一种地址信息的处理装置,包括:获取模块,用于获取待处理地址信息;处理模块,用于使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址。
根据本发明实施例的另一方面,还提供了一种地址信息的处理装置,包括:接收模块,用于接收检索式,其中,检索式包括文本格式的地址信息;预处理模块,用于对检索式中的地址信息进行预处理,得到待处理地址信息,其中,待处理地址信息包括满足标准条件的地址词语;处理模块,用于使用指示器网络模型对待处理地址信息进行标准化处理,得到标准化地址,其中,根据样本数据训练指示器网络模型。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取待处理地址信息;使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行如下步骤:获取待处理地址信息;使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址。
根据本发明实施例的一个方面,提供了一种地址信息的处理方法,包括:对地址数据进行预处理,得到待处理地址信息,其中,待处理地址信息至少包括满足标准条件的地址词语;使用指示器网络模型对待处理地址信息进行标准化处理,得到标准化地址,其中,根据样本数据训练指示器网络;输出标准化地址。
采用本发明实施例,使用指示器网络模型对待处理地址信息进行处理,指示器网络模型仅需要少量的标注数据,即可自行训练模型,并不需要人工干涉制定不同的人工规则来应对数据文本的增加,可以减少大量的制订规则的人工成本。且指示器网络模型的输出完全来自于模型的输入,是对输入数据的筛选和重新排列,避免了生成词表过大导致的输出不稳定,以及对不在词表内的新词无法处理的情况。且指示器网络模型将此地址文本处理中的去重和地址元素标准化输出两个步骤统一到指示器网络模型中,并通过指示器网络的方式稳定的产生标准化的输出,完成一种端到端的文本转换,在降低地址服务的人工成本的同时提高地址标准化的效率和质量,解决了现有技术中对裁判结果进行的偏离预警不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现地址信息的处理方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例1的一种地址信息的处理方法的流程图;
图3是根据本申请实施例1的一种指示器网络模型进行数据处理的示意图;
图4是根据本申请实施例1的一种地址信息的处理方法的示意图;
图5是根据本申请实施例2的一种地址信息的处理装置的示意图;
图6是根据本申请实施例3的一种地址信息的处理方法的流程图;
图7是根据本申请实施例4的一种地址信息的处理装置的示意图;
图8是根据本申请实施例5的一种地址信息的处理方法的流程图;
图9是根据本申请实施例6的一种地址信息的处理装置的示意图;以及
图10是根据本申请实施例7的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,还提供了一种地址信息的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现地址信息的处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的地址信息的处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的地址信息的处理方法的流程图。
图2是根据本申请实施例1的一种地址信息的处理方法的流程图。
步骤S21,获取待处理地址信息。
具体的,上述待处理地址信息可以为需要被处理的文本信息。例如,在物流领域,可以是用户填写的发货地址文本。
上述待处理地址信息中包括满足标准条件的地址词语,上述标准条件可以包括:待处理地址信息中的地址词语为标准地址词语,且待处理地址信息包括所有预设地址区域级别的标准词语。标准地址词语用于表示对于一个地址预先设置的描述词语,待处理地址信息中所包括的标准地址词语即为使用预设的标准地址词语对地址进行的描述。预设地址区域级别可以包括:省、市、区、路、号码、名称。
步骤S23,使用指示器网络模型对待处理地址信息进行标准化处理,得到标准化地址。
上述标准化地址指的是对地址数据的处理结果。标准化地址用于表示格式满足预设规则的地址表示方式,在一种可选的实施例中,标准化地址由按照预设顺序排列的多种地址区域级别的标准化地址词语构成,例如,标准化地址可以是按照如下规则描述的地址信息:省、市、区、路、号码、名称。
具体的,上述标准化处理可以包括去重处理和/或地址元素重排序,其中,去重处理用于取出待处理地址信息中的重复信息,地址元素重排序用于对去重处理后的待处理信息中的地址词语的排列顺序进行调整,以使地址信息满足标准化地址的要求。
指示器网络模型是一种RNN(Recurrent Neural Network,循环神经网络)结构的深度神经网络,与普通的RNN网络不同的是,其输出的内容完全取决于输入的内容,而不会输出与输入内容不同的其他内容,可以用于对输入序列重新排序输出,因此,上述方案使用指示器网络模型对待处理地址信息进行处理。
在一种可选的实施例中,在训练指示器网络模型时,可以采用<非标准化地址,标准化地址>作为样本数据,对指示器网络模型进行训练。
仍在上述地址数据为“请将地址修改到陕西省西安市的xx大厦吧,在科技二路北段10号”的示例中,其对应的待处理地址信息为“XX大厦陕西省西安市雁塔区高新科技二路北段10号”,通过指示器网络模型对待处理地址信息进行处理后,得到的标准化地址为“陕西省西安市雁塔区高新科技二路北段10号XX大厦”。
本申请上述实施例使用指示器网络模型对待处理地址信息进行处理,指示器网络模型仅需要少量的标注数据,即可自行训练模型,并不需要人工干涉制定不同的人工规则来应对数据文本的增加,可以减少大量的制订规则的人工成本。且指示器网络模型的输出完全来自于模型的输入,是对输入数据的筛选和重新排列,避免了生成词表过大导致的输出不稳定,以及对不在词表内的新词无法处理的情况。且指示器网络模型将此地址文本处理中的去重和地址元素标准化输出两个步骤统一到指示器网络模型中,并通过指示器网络的方式稳定的产生标准化的输出,完成一种端到端的文本转换,在降低地址服务的人工成本的同时提高地址标准化的效率和质量。
由此,本申请上述实施例解决了现有技术中对裁判结果进行的偏离预警不准确的技术问题。
作为一种可选的实施例,获取待处理地址信息,包括:获取地址数据;从地址数据中提取用于表示地址的地址词语;确定地址词语对应的类型,并根据类型对地址词语进行标记,其中,类型用于表示地址词语所属的地址区域级别;根据预先设置的标准词语对地址词语进行归一化处理;根据地址词语的标记确定地址数据缺失的地址词语,并补充地址数据缺失的地址词语,得到待处理地址信息。
具体的,上述地址数据可以为包括待处理地址信息的文本信息。例如,从对话信息中截取的文本信息等。
在上述步骤中,由于地址数据的来源可能是一段文字或语句,地址数据中不仅包括表示地址的地址词语,还可能包括其他信息,因此需要对地址数据进行处理,从中提取地址词语。提取地址词语的方式可以是对地址数据中表示地址的文本进行分割,从而得到地址词语。
在一种可选的实施例中,可以使用预设神经网络模型从地址数据中提取地址词语。在另一种可选的实施例中,还可以将地址数据与预设的地址词典进行匹配,从而从地址数据中提取出地址词语。
地址词语的类型用于表示地址词语属的地址区域级别,也即在哪一个地址区域级别对地址进行描述。在一种可选的实施例中,上述类型可以包括:省、市、区、路、号码、名称等。对地址词语进行标记用于指示地址词语的类型。
在一种可选的实施例中,仍“姑苏区虎丘路969号虎丘婚纱影视基地1号楼7层910号”为例,将其分割成地址词语“姑苏区虎丘路969号虎丘婚纱影视基地1号楼7层910号”,并对地址词语进行标记,得到的标记结果可以为,district(区域)=姑苏区,road(道路)=虎丘路,roadno(道路编号)=969号,poi(目的地)=虎丘婚纱影视基地,houseno(楼号)=1号楼,floorno(楼层)=7层,roomno(房屋编号)=910号”。
归一化处理用于将地址词语全部更改为标准化的词语,补充地址数据确实的地址信息,用于进行补齐处理,使得待处理地址信息在预设的每个类别上都具有数据。下面进行详细说明。
作为一种可选的实施例,根据预先设置的标准词语对地址词语进行归一化处理,包括:确定地址词语所指示的地址,并获取地址的标准词语;将地址词语与地址的标准词语进行比对;如果地址词语与地址的标准词语不同,将地址词语更改为地址对应的标准词语。具体的,上述地址的标准词语是针对地址预设的,对于一个地址可能存在多种称呼,标准词语即为预设一种称呼,用户识别地址的设备能够对地址进行准确的识别。
在一种可选的实施例中,对于地址数据“苏州姑苏虎丘路虎丘婚纱城的一号楼7楼”,提取出的地址词语包括“苏州姑苏虎丘路虎丘婚纱城一号楼7楼”,经过比对得到“虎丘婚纱城”并非标准地址词语,其对应的标准地址为“虎丘婚纱影视基地”,因此将对“苏州姑苏虎丘路虎丘婚纱城的一号楼7楼”进行归一化处理后得到“苏州市姑苏区虎丘路虎丘婚纱影视基地的一号楼7楼”。
作为一种可选的实施例,根据地址词语的标记确定地址数据缺失的地址词语,并补充地址数据缺失的地址词语,得到待处理地址信息,包括:获取预设的地址区域级别;检测地址数据中地址词语的类型是否包括地址区域级别所指示的所有类型;如果地址数据缺少任意一个类型对应的地址词语,则根据地址数据中已包括的地址词语获取缺少的地址词语;将获取到的缺少的地址词语补充至地址数据。
上述步骤用于对地址信息进行补齐处理,从而使得地址信息在每个地址区域级别上都具有对应的数据。
如果确定地址数据中缺少任意一个类型的地址词语,则可以根据与缺少的地址词语相邻的其他类型的词语,确定缺少的类型的地址词语。例如,缺少省这一类型的词语,则可以根据市对应的地址词语确定其所在的省份。
具体的,上述预设的地址区域级别用于表示进行地址识别的设备所必须的地址区域级别。不同的地址识别设备所需的地址区域级别可能不同。
在一种可选的实施例中,预设的地址区域级别包括:省、市、区、路、目的名称、楼层。以及“苏州市姑苏区虎丘路虎丘婚纱影视基地的一号楼7楼”为例,其中缺少“省份”这一地址区域级别的描述,因此可以根据苏州市查找到其所属的省份为江苏省,因此可以得到补齐处理后的地址信息“江苏省苏州市姑苏区虎丘路虎丘婚纱影视基地的一号楼7楼”。
作为一种可选的实施例,使用指示器网络模型对待处理地址信息进行标准化处理,得到标准化地址,包括:将待处理地址信息输入至编码器,其中,编码器将待处理地址信息转换为语义向量;将语义向量输入至解码器,其中,解码器对语义向量进行筛选和排序,得到待处理地址信息对应的标准化地址。
具体的,在编码阶段,待处理地址信息逐字或逐词通过编码器,通过编码器将待处理地址信息转换为潜在语义向量,再通过解码器进行逆向的解码,从而输出标准化地址。
图3是根据本申请实施例1的一种指示器网络模型进行数据处理的示意图,结合图3所示,可以以词的粒度或以字的粒度将数据输入至指示器网络模型,图3中的示例是以字为粒度将数据输入至指示器网络模型。以“可可西里”为例,输入至指示器网络模型中的数据为“西里可可可”,并非标准地址词语。将“西里可可可”首先输入至指示器网络模型的编码器中,在编码阶段将每个字转换为对应的语义向量,该语义向量可以将输入的文本的语义信息投影到一个高维空间中,由解码器接收该语义向量。解码阶段是编码阶段的一个逆向的过程,解码器以编码器输出的语义向量作为输入,每一次输出均会指向输入的一个位置,输出标准的地址信息“可可西里”,从而起到了去重和标准输出的效果。
作为一种可选的实施例,方法还包括:创建指示器网络模型,其中,创建指示器网络模型的步骤包括:获取样本数据;基于样本数据对初始指示器网络模型进行训练。
具体的,上述样本数据包括<非标准化地址,标准化地址>,指示器网络模型通过学习样本数据,从而能够对地址信息进行去重和标准输出。
通过获取的样本数据反复训练指示器网络模型,直到指示器网络模型达到收敛状态,此时的模型即可用于对待处理地址信息进行标准化处理。
作为一种可选的实施例,获取样本数据,包括:获取多个样本标准化地址;对样本标准化地址进行变型,得到样本标准化地址对应的至少一个非标准化地址;确定样本标准化地址和样本标准化地址对应的一个非标准化地址构成一组样本数据。
在上述方案中,通过获取标准化地址,并对标准化地址进行变型,从而可以得到多个非标准化地址,进而组成样本数据,不仅实现了样本数据的扩充,还能够增强模型的鲁棒性。
上述样本标准化地址可以是人为构建的标准化地址,也可以是在实际的应用场景中获取到的标准化地址。在一种可选的实施例中,可以从预设的地址库中获取标准化地址,并对标准化地址中的地址词语进行增加、删减、调整顺序等操作,从而生成标准化地址对应的非标准化地址。样本标准化地址和其所对应的每个非标准化地址均可以构成一组样本数据。
作为一种可选的实施例,样本标准化地址包括多个地址元素,对样本标准化地址进行变型,得到标准化地址对应的至少一个非标准化地址,包括如下一项或多项:删除样本标准化地址中的至少一个地址元素;重复样本标准化地址中的至少一个地址元素;调整样本标准化地址中地址元素的顺序。
上述实施例提供了一种对样本标准化地址进行变型方式,下面分别进行说明。
第一种方式是删除样本标准化地址中的地址元素,用于确保指示器网络模型在缺少部分地址元素时可以将地址标准化。
第二种方式是重复样本标准化地址中的地址元素,用于确保在重复地址元素情况下能够将多余的信息去除同时保证地址标准化。
第三种方式是调整样本标准化地址中地址元素的顺序,用于在混乱输入的情况下可以将地址标准化。
在一种可选的实施例中,可以按照如下结构样本数据:|原始样本|转换方式|转换后样本|标准化目标|。
以苏州市姑苏区虎丘路苏州市虎丘婚纱城一号楼7楼为例,采用第一种方式变型得到的样本数可以记录为:|苏州市姑苏区虎丘路苏州市虎丘婚纱城一号楼7楼|删除|苏州市虎丘路苏州市虎丘婚纱城一号楼7楼|苏州市虎丘路虎丘婚纱城一号楼7楼|;采用第二种变型方式得到的样本数据可以记录为:|苏州市虎丘路苏州市虎丘婚纱城一号楼7楼|重复|苏州市虎丘路虎丘路虎丘婚纱城一号楼7楼|苏州市虎丘路虎丘婚纱城一号楼7楼|;采用第三种变型方式得到的样本数据可以记录为:|苏州市姑苏区虎丘路苏州市虎丘婚纱城一号楼7楼|随机乱序|一号楼7楼虎丘路苏州市虎丘婚纱城|苏州市虎丘路虎丘婚纱城一号楼7楼|。
作为一种可选的实施例,获取多个样本标准化地址,包括:获取样本地址数据;从样本地址数据中提取地址元素和地址元素的类型,构成样本数据集;根据地址元素的类型从样本数据集中筛选多个地址元素;根据预先设置的标准词语对筛选出的地址元素进行归一化处理;根据地址元素的标记确定样本地址数据缺失的地址词语,并补充样本地址数据缺失的地址词语,得到样本标准化地址。
具体的,上述样本地址数据是用于获取样本标准化地址的文本数据,上述地址元素用于表示样本地址数据中的地址词语,地址元素的类型用于表示地址元素所属的地址区域级别。
在一种可选的实施例中,可以收集大量的样本地址数据,并从样本地址数据中提取出地址元素,确定地址元素所属的类型,从而构成样本数据集。
在得到样本数据集之后,可以根据对样本数据的数据量的需求确定采样率,根据采样率从数据集中筛选出地址元素,并对筛选得到的地址元素进行标记,以确定地址元素的类型。在对地址元素进行标记后,可以根据标记结果,对样本地址数据中的地址元素进行补齐处理和归一化处理,其中,补齐处理可以是针对预设的地址区域级别(例如四级行政规划区域)进行地址补齐,例如,对于“苏州市姑苏区虎丘路虎丘婚纱影视基地的一号楼7楼”,进行补齐处理后得到“江苏省苏州市姑苏区虎丘路虎丘婚纱影视基地的一号楼7楼”,然后对补齐处理的结果进行归一化处理,其中,补齐处理的结果中的poi与标准地址词语不匹配,因此对poi(Point of Interest,兴趣点)进行归一化处理,得到“苏州市姑苏区虎丘路虎丘婚纱影视基地的一号楼7楼”。
作为一种可选的实施例,从样本地址数据中提取地址元素和地址元素的类型,构成样本数据集,包括:对样本地址数据进行分割,得到地址元素;确定地址元素的类型,并根据类型对地址元素进行标记;确定标记后的地址元素构成样本数据集。
上述方案通过预处理样本地址数据得到数据集。首先可以收集海量的地址数据,并将其字符串进行分割从而得到地址元素;然后对分割得到的地址元素进行标记,标记的目标在于确定是否需要对地址元素进行补齐处理。
例如,对于“姑苏区虎丘路969号虎丘婚纱影视基地1号楼7层910号”,其标记结果即为“district=姑苏区road=虎丘路roadno=969号poi=虎丘婚纱影视基地houseno=1号楼floorno=7层roomno=910号”。
图4是根据本申请实施例1的一种地址信息的处理方法的示意图,结合图4所示,首先获取海量地址文本,并对海量地址文本进行分割和标记,得到标记后的地址元素;然后进行地址采样和人工规范化处理,以调整地址元素的顺序;再通过删除、重复以及顺序等方式,对标注样本进行自动扩充,并将地址文本进行地址元素补齐和归一,从而得到样本数据,最后根据样本数据训练地址标准化指示器网络模型。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述地址信息的处理方法的地址信息的处理装置,图5是根据本申请实施例2的一种地址信息的处理装置的示意图,如图5所示,该装置500包括:
获取模块502,用于获取待处理地址信息。
处理模块504,用于使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址。
此处需要说明的是,上述获取模块502和处理模块504对应于实施例1中的步骤S21至步骤S23,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
作为一种可选的实施例,获取模块包括:第一获取子模块,用于获取地址数据;提取子模块,用于从地址数据中提取用于表示地址的地址词语;确定子模块,用于确定地址词语对应的类型,并根据类型对地址词语进行标记,其中,类型用于表示地址词语所属的地址区域级别;归一化处理子模块,用于根据预先设置的标准词语对地址词语进行归一化处理;补充子模块,用于根据地址词语的标记确定地址数据缺失的地址词语,并补充地址数据缺失的地址词语,得到待处理地址信息。
作为一种可选的实施例,归一化处理子模块包括:确定单元,用于确定地址词语所指示的地址,并获取地址对应的标准词语;比对单元,用于将地址词语与地址对应的标准词语进行比对;更改单元,用于如果地址词语与地址对应的标准词语不同,将地址词语更改为地址对应的标准词语。
作为一种可选的实施例,补充子模块包括:第一获取单元,用于获取预设的地址区域级别;检测单元,用于检测地址数据中地址词语的类型是否包括地址区域级别所指示的所有类型;第二获取单元,用于如果地址数据缺少任意一个类型对应的地址词语,则根据地址数据中已包括的地址词语获取缺少的地址词语;补充单元,用于将获取到的缺少的地址词语补充至地址数据。
作为一种可选的实施例,处理模块包括:第一输入子模块,用于将待处理地址信息输入至编码器,其中,编码器将待处理地址信息转换为语义向量;第二输入子模块,用于将语义向量输入至解码器,其中,解码器对语义向量进行筛选和排序,得到待处理地址信息对应的标准化地址。
作为一种可选的实施例,上述装置还包括:创建模块,用于创建指示器网络模型,其中,创建模块包括:第二获取子模块,用于获取样本数据;训练子模块,用于基于样本数据对初始指示器网络模型进行训练。
作为一种可选的实施例,第二获取子模块包括:第三获取单元,用于获取多个样本标准化地址;变型子模块,用于对样本标准化地址进行变型,得到样本标准化地址对应的至少一个非标准化地址;确定子模块,用于确定样本标准化地址和样本标准化地址对应的一个非标准化地址构成一组样本数据。
作为一种可选的实施例,样本标准化地址包括多个地址元素,对样本标准化地址进行变型,得到标准化地址对应的至少一个非标准化地址,包括如下一项或多项:删除样本标准化地址中的至少一个地址元素;重复样本标准化地址中的至少一个地址元素;调整样本标准化地址中地址元素的顺序。
作为一种可选的实施例,第三获取单元包括:获取子单元,用于获取样本地址数据;构成子单元,用于从样本地址数据中提取地址元素和地址元素的类型,构成样本数据集;筛选子单元,用于根据地址元素的类型从样本数据集中筛选多个地址元素;归一化子单元,用于根据预先设置的标准词语对筛选出的地址元素进行归一化处理;补充子单元,用于根据地址元素的标记确定样本地址数据缺失的地址词语,并补充样本地址数据缺失的地址词语,得到样本标准化地址。
作为一种可选的实施例,构成子单元包括:分割子单元,用于对样本地址数据进行分割,得到地址元素;第一确定子单元,用于确定地址元素的类型,并根据类型对地址元素进行标记;第二确定子单元,用于确定标记后的地址元素构成样本数据集。
实施例3
根据本发明实施例,还提供了一种地址信息的处理方法的实施例,图6是根据本申请实施例3的一种地址信息的处理方法的流程图,该方法包括:
步骤S61,接收检索式,其中,检索式包括文本格式的地址信息。
具体的,上述检索式可以为输入至应用程序对地址进行搜索的内容,尤其是地图类应用程序。检索式中可以包括文本格式的地址信息。例如,在使用地图类应用程序进行导航时,输入至百度地图的文本内容即为检索式。
步骤S63,对检索式中的地址信息进行预处理,得到待处理地址信息,其中,待处理地址信息包括满足标准条件的地址词语。
具体的,上述检索式可以为需要被处理的文本信息。例如,在物流领域,可以是用户填写的发货地址文本。
上述待处理地址信息中包括满足标准条件的地址词语,上述标准条件可以包括:待处理地址信息中的地址词语为标准地址词语,且待处理地址信息包括所有预设地址区域级别的标准词语。标准地址词语用于表示对于一个地址预先设置的描述词语,待处理地址信息中所包括的标准地址词语即为使用预设的标准地址词语对地址进行的描述。预设地址区域级别可以包括:省、市、区、路、号码、名称。
检索式的来源多样化,可以为用户填写的信息,也可是用户的聊天记录,因此较为随意,标准化程度较低。基于此,上述方案首先对检索式进行预处理,从而得到检索式对应的待处理地址信息。
在一种可选的实施例中,预处理可以用于对检索式进行提取、标注、归一和补齐处理。例如,在电商平台中,用户告知客服人员需要更改送货地址,并向客户人员输入如下文本信息“请将地址修改到陕西省西安市的xx大厦吧,在科技二路北段10号”,这段包括地址信息的文本数据即为上述检索式。系统可以直接对用户发送的检索式进行预处理。
首先,可以从检索式中提取出描述地址的文本,并对描述地址的文本进行拆分,得到地址词语,对“请将地址修改到陕西省西安市的xx大厦吧,在科技二路北段10号”进行上述处理,得到的结果是“XX大厦陕西省西安市科技二路北段10号”。然后再将地址词语转化为标准的地址词语,其中,“科技二路北段”对应的标准的地址词语为“高新科技二路北段”,因此得到的结果是“XX大厦陕西省西安市高新科技二路北段10号”。最后,还需要对上述信息进行补齐处理,即补齐地址信息在预定的每个地址区域级别的信息,“XX大厦陕西省西安市高新科技二路北段10号”中还缺乏对区级的描述,因此对上述信息进行补齐处理,得到最终的待处理地址信息“XX大厦陕西省西安市雁塔区高新科技二路北段10号”。
步骤S65,使用指示器网络模型对待处理地址信息进行标准化处理,得到标准化地址,其中,根据样本数据训练指示器网络模型。
上述标准化地址指的是对检索式的处理结果。标准化地址用于表示格式满足预设规则的地址表示方式,在一种可选的实施例中,标准化地址由按照预设顺序排列的多种地址区域级别的标准化地址词语构成,例如,标准化地址可以是按照如下规则描述的地址信息:省、市、区、路、号码、名称。
具体的,上述标准化处理可以包括去重处理和标准输出,其中,去重处理用于取出待处理地址信息中的重复信息,标准输出用于对去重处理后的待处理信息中的地址词语的排列顺序进行调整,以使地址信息满足标准化地址的要求。
指示器网络模型是一种RNN(Recurrent Neural Network,循环神经网络)结构的深度神经网络,与普通的RNN网络不同的是,其输出的内容完全取决于输入的内容,而不会输出与输入内容不同的其他内容,可以用于对输入序列重新排序输出,因此,上述方案使用指示器网络模型对待处理地址信息进行处理。
在一种可选的实施例中,在训练指示器网络模型时,可以采用<非标准化地址,标准化地址>作为样本数据,对指示器网络模型进行训练。
仍在上述检索式为“请将地址修改到陕西省西安市的xx大厦吧,在科技二路北段10号”的示例中,其对应的待处理地址信息为“XX大厦陕西省西安市雁塔区高新科技二路北段10号”,通过指示器网络模型对待处理地址信息进行处理后,得到的标准化地址为“陕西省西安市雁塔区高新科技二路北段10号XX大厦”。
本申请上述实施例使用指示器网络模型对待处理地址信息进行处理,指示器网络模型仅需要少量的标注数据,即可自行训练模型,并不需要人工干涉制定不同的人工规则来应对数据文本的增加,可以减少大量的制订规则的人工成本。且指示器网络模型的输出完全来自于模型的输入,是对输入数据的筛选和重新排列,避免了生成词表过大导致的输出不稳定,以及对不在词表内的新词无法处理的情况。
本申请上述实施例对获取的检索式进行预处理,得到待处理地址信息,其中,待处理地址信息包括标准的地址词语;基于指示器网络模型对待处理地址信息进行去重和标准输出,得到检索式对应的标准化地址,其中,根据样本数据对预设的指示器网络模型进行训练;接收指示器网络模型输出的标准化地址。将此地址文本处理中的去重和地址元素标准化输出两个步骤统一到指示器网络模型中,并通过指示器网络的方式稳定的产生标准化的输出,完成一种端到端的文本转换,在降低地址服务的人工成本的同时提高地址标准化的效率和质量。
由此,本申请上述实施例解决了现有技术中对裁判结果进行的偏离预警不准确的技术问题。
作为一种可选的实施例,对检索式中的地址信息进行预处理,得到待处理地址信息,包括:从检索式中的地址信息中提取用于表示地址的地址词语;确定地址词语对应的类型,并根据类型对地址词语进行标记,其中,类型用于表示地址词语所属的地址区域级别;根据预先设置的标准词语对地址词语进行归一化处理;根据地址词语的标记确定检索式缺失的地址词语,并补充检索式缺失的地址词语,得到待处理地址信息。
在上述步骤中,由于检索式的来源可能是一段文字或语句,检索式中不仅包括表示地址的地址词语,还可能包括其他信息,因此需要对检索式进行处理,从中提取地址词语。提取地址词语的方式可以是对检索式中表示地址的文本进行分割,从而得到地址词语。
在一种可选的实施例中,可以使用预设神经网络模型从检索式中提取地址词语。在另一种可选的实施例中,还可以将检索式与预设的地址词典进行匹配,从而从检索式中提取出地址词语。
地址词语的类型用于表示地址词语属的地址区域级别,也即在哪一个地址区域级别对地址进行描述。在一种可选的实施例中,上述类型可以包括:省、市、区、路、号码、名称等。对地址词语进行标记用于指示地址词语的类型。
在一种可选的实施例中,仍“姑苏区虎丘路969号虎丘婚纱影视基地1号楼7层910号”为例,将其分割成地址词语“姑苏区虎丘路969号虎丘婚纱影视基地1号楼7层910号”,并对地址词语进行标记,得到的标记结果可以为,district(区域)=姑苏区,road(道路)=虎丘路,roadno(道路编号)=969号,poi(目的地)=虎丘婚纱影视基地,houseno(楼号)=1号楼,floorno(楼层)=7层,roomno(房屋编号)=910号”。
归一化处理用于将地址词语全部更改为标准化的词语,补充检索式确实的地址信息,用于进行补齐处理,使得待处理地址信息在预设的每个类别上都具有数据。下面进行详细说明。
作为一种可选的实施例,使用指示器网络模型对待处理地址信息进行标准化处理,得到标准化地址,包括:将待处理地址信息输入至编码器,其中,编码器将待处理地址信息转换为语义向量;将语义向量输入至解码器,其中,解码器对语义向量进行筛选和排序,得到待处理地址信息对应的标准化地址。
具体的,在编码阶段,待处理地址信息逐字或逐词通过编码器,通过编码器将待处理地址信息转换为潜在语义向量,再通过解码器进行逆向的解码,从而输出标准化地址。
图3是根据本申请实施例1的一种指示器网络模型进行数据处理的示意图,结合图3所示,可以以词的粒度或以字的粒度将数据输入至指示器网络模型,图3中的示例是以字为粒度将数据输入至指示器网络模型。以“可可西里”为例,输入至指示器网络模型中的数据为“西里可可可”,并非标准地址词语。将“西里可可可”首先输入至指示器网络模型的编码器中,在编码阶段将每个字转换为对应的语义向量,该语义向量可以将输入的文本的语义信息投影到一个高维空间中,由解码器接收该语义向量。解码阶段是编码阶段的一个逆向的过程,解码器以编码器输出的语义向量作为输入,每一次输出均会指向输入的一个位置,输出标准的地址信息“可可西里”,从而起到了去重和标准输出的效果。
实施例4
根据本发明实施例,还提供了一种用于实施实施例3中的地址信息的处理方法的地址信息的处理装置,图7是根据本申请实施例4的一种地址信息的处理装置的示意图,如图7所示,该装置700包括:
接收模块702,用于接收检索式,其中,检索式包括文本格式的地址信息。
预处理模块704,用于对检索式中的地址信息进行预处理,得到待处理地址信息,其中,待处理地址信息包括满足标准条件的地址词语。
处理模块706,用于使用指示器网络模型对待处理地址信息进行标准化处理,得到标准化地址,其中,根据样本数据训练指示器网络模型。
此处需要说明的是,上述接收模块702、预处理模块704和处理模块706对应于实施例3中的步骤S61至步骤S65,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
作为一种可选的实施例,预处理模块包括:提取子模块,用于从检索式中的地址信息中提取用于表示地址的地址词语;确定子模块,用于确定地址词语对应的类型,并根据类型对地址词语进行标记,其中,类型用于表示地址词语所属的地址区域级别;归一化处理子模块,用于根据预先设置的标准词语对地址词语进行归一化处理;补充子模块,用于根据地址词语的标记确定地址数据缺失的地址词语,并补充地址数据缺失的地址词语,得到待处理地址信息。
作为一种可选的实施例,处理模块包括:第一输入子模块,用于将待处理地址信息输入至编码器,其中,编码器将待处理地址信息转换为语义向量;第二输入子模块,用于将语义向量输入至解码器,其中,解码器对语义向量进行筛选和排序,得到待处理地址信息对应的标准化地址。
实施例5
根据本发明实施例,还提供了一种地址信息的处理方法的实施例,图8是根据本申请实施例5的一种地址信息的处理方法的流程图,该方法包括:
步骤S81,对地址数据进行预处理,得到待处理地址信息,其中,待处理地址信息至少包括满足标准条件的地址词语。
具体的,上述地址数据可以为需要被处理的文本信息。例如,在物流领域,可以是用户填写的发货地址文本。
上述待处理地址信息中包括满足标准条件的地址词语,上述标准条件可以包括:待处理地址信息中的地址词语为标准地址词语,且待处理地址信息包括所有预设地址区域级别的标准词语。标准地址词语用于表示对于一个地址预先设置的描述词语,待处理地址信息中所包括的标准地址词语即为使用预设的标准地址词语对地址进行的描述。预设地址区域级别可以包括:省、市、区、路、号码、名称。
地址数据的来源多样化,可以为用户填写的信息,也可是用户的聊天记录,因此较为随意,标准化程度较低。基于此,上述方案首先对地址数据进行预处理,从而得到地址数据对应的待处理地址信息。
在一种可选的实施例中,预处理可以用于对地址数据进行提取、标注、归一和补齐处理。例如,在电商平台中,用户告知客服人员需要更改送货地址,并向客户人员输入如下文本信息“请将地址修改到陕西省西安市的xx大厦吧,在科技二路北段10号”,这段包括地址信息的文本数据即为上述地址数据。系统可以直接对用户发送的地址数据进行预处理。
首先,可以从地址数据中提取出描述地址的文本,并对描述地址的文本进行拆分,得到地址词语,对“请将地址修改到陕西省西安市的xx大厦吧,在科技二路北段10号”进行上述处理,得到的结果是“XX大厦陕西省西安市科技二路北段10号”。然后再将地址词语转化为标准的地址词语,其中,“科技二路北段”对应的标准的地址词语为“高新科技二路北段”,因此得到的结果是“XX大厦陕西省西安市高新科技二路北段10号”。最后,还需要对上述信息进行补齐处理,即补齐地址信息在预定的每个地址区域级别的信息,“XX大厦陕西省西安市高新科技二路北段10号”中还缺乏对区级的描述,因此对上述信息进行补齐处理,得到最终的待处理地址信息“XX大厦陕西省西安市雁塔区高新科技二路北段10号”。
步骤S83,使用指示器网络模型对待处理地址信息进行标准化处理,得到标准化地址,其中,根据样本数据训练指示器网络。
上述标准化地址指的是对地址数据的处理结果。标准化地址用于表示格式满足预设规则的地址表示方式,在一种可选的实施例中,标准化地址由按照预设顺序排列的多种地址区域级别的标准化地址词语构成,例如,标准化地址可以是按照如下规则描述的地址信息:省、市、区、路、号码、名称。
具体的,上述标准化处理可以包括去重处理和标准输出,其中,去重处理用于取出待处理地址信息中的重复信息,标准输出用于对去重处理后的待处理信息中的地址词语的排列顺序进行调整,以使地址信息满足标准化地址的要求。
指示器网络模型是一种RNN(Recurrent Neural Network,循环神经网络)结构的深度神经网络,与普通的RNN网络不同的是,其输出的内容完全取决于输入的内容,而不会输出与输入内容不同的其他内容,可以用于对输入序列重新排序输出,因此,上述方案使用指示器网络模型对待处理地址信息进行处理。
在一种可选的实施例中,在训练指示器网络模型时,可以采用<非标准化地址,标准化地址>作为样本数据,对指示器网络模型进行训练。
仍在上述地址数据为“请将地址修改到陕西省西安市的xx大厦吧,在科技二路北段10号”的示例中,其对应的待处理地址信息为“XX大厦陕西省西安市雁塔区高新科技二路北段10号”,通过指示器网络模型对待处理地址信息进行处理后,得到的标准化地址为“陕西省西安市雁塔区高新科技二路北段10号XX大厦”。
步骤S85,输出标准化地址。
具体的,上述指示器网络模型用于对待处理地址信息进行去重和标准输出,从而得到标准化地址。上述方案可以应用于多种需要自动识别地址信息的场景。在一种可选的实施例中,物流领域中的分拣设备会根据货物上的地址进行自动分拣,因此需要货物上的地址为标准化地址。
本申请上述实施例使用指示器网络模型对待处理地址信息进行处理,指示器网络模型仅需要少量的标注数据,即可自行训练模型,并不需要人工干涉制定不同的人工规则来应对数据文本的增加,可以减少大量的制订规则的人工成本。且指示器网络模型的输出完全来自于模型的输入,是对输入数据的筛选和重新排列,避免了生成词表过大导致的输出不稳定,以及对不在词表内的新词无法处理的情况。
本申请上述实施例对获取的地址数据进行预处理,得到待处理地址信息,其中,待处理地址信息包括标准的地址词语;基于指示器网络模型对待处理地址信息进行去重和标准输出,得到地址数据对应的标准化地址,其中,根据样本数据对预设的指示器网络模型进行训练;接收指示器网络模型输出的标准化地址。将此地址文本处理中的去重和地址元素标准化输出两个步骤统一到指示器网络模型中,并通过指示器网络的方式稳定的产生标准化的输出,完成一种端到端的文本转换,在降低地址服务的人工成本的同时提高地址标准化的效率和质量。
由此,本申请上述实施例解决了现有技术中对裁判结果进行的偏离预警不准确的技术问题。
需要说明的是,本实施例中的地址信息的处理方法还包括实施例1中的其他步骤,此处不再赘述。
实施例6
根据本发明实施例,还提供了一种用于实施上述地址信息的处理方法的地址信息的处理装置,图9是根据本申请实施例6的一种地址信息的处理装置的示意图,如图9所示,该装置900包括:
预处理模块902,用于对地址数据进行预处理,得到待处理地址信息,其中,待处理地址信息至少包括满足标准条件的地址词语。
处理模块904,用于使用指示器网络模型对待处理地址信息进行标准化处理,得到标准化地址,其中,根据样本数据训练指示器网络。
输出模块906,用于输出标准化地址。
此处需要说明的是,上述预处理模块902、处理模块904和输出模块906对应于实施例6中的步骤S81至步骤S85,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例7
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的漏洞检测方法中以下步骤的程序代码:获取待处理地址信息;使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址。
可选地,图10是根据本发明实施例7的一种计算机终端的结构框图。如图7所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器1002、存储器1004、以及外设接口1006。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的系统漏洞攻击的检测方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待处理地址信息;使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址。
可选的,上述处理器还可以执行如下步骤的程序代码:获取地址数据;从地址数据中提取用于表示地址的地址词语;确定地址词语对应的类型,并根据类型对地址词语进行标记,其中,类型用于表示地址词语所属的地址区域级别;根据预先设置的标准词语对地址词语进行归一化处理;根据地址词语的标记确定地址数据缺失的地址词语,并补充地址数据缺失的地址词语,得到待处理地址信息。
可选的,上述处理器还可以执行如下步骤的程序代码:确定地址词语所指示的地址,并获取地址对应的标准词语;将地址词语与地址对应的标准词语进行比对;如果地址词语与地址对应的标准词语不同,将地址词语更改为地址对应的标准词语。
可选的,上述处理器还可以执行如下步骤的程序代码:获取预设的地址区域级别;检测地址数据中地址词语的类型是否包括地址区域级别所指示的所有类型;如果地址数据缺少任意一个类型对应的地址词语,则根据地址数据中已包括的地址词语获取缺少的地址词语;将获取到的缺少的地址词语补充至地址数据。
可选的,上述处理器还可以执行如下步骤的程序代码:将待处理地址信息输入至编码器,其中,编码器将待处理地址信息转换为语义向量;将语义向量输入至解码器,其中,解码器对语义向量进行筛选和排序,得到待处理地址信息对应的标准化地址。
可选的,上述处理器还可以执行如下步骤的程序代码:创建指示器网络模型,其中,创建指示器网络模型的步骤包括:获取样本数据;基于样本数据对初始指示器网络模型进行训练。
可选的,上述处理器还可以执行如下步骤的程序代码:获取多个样本标准化地址;对样本标准化地址进行变型,得到样本标准化地址对应的至少一个非标准化地址;确定样本标准化地址和样本标准化地址对应的一个非标准化地址构成一组样本数据。
可选的,上述处理器还可以执行如下步骤的程序代码:样本标准化地址包括多个地址元素,对样本标准化地址进行变型,得到标准化地址对应的至少一个非标准化地址,包括如下一项或多项:删除样本标准化地址中的至少一个地址元素;重复样本标准化地址中的至少一个地址元素;调整样本标准化地址中地址元素的顺序。
可选的,上述处理器还可以执行如下步骤的程序代码:获取样本地址数据;从样本地址数据中提取地址元素和地址元素的类型,构成样本数据集;根据地址元素的类型从样本数据集中筛选多个地址元素;根据预先设置的标准词语对筛选出的地址元素进行归一化处理;根据地址元素的标记确定样本地址数据缺失的地址词语,并补充样本地址数据缺失的地址词语,得到样本标准化地址。
可选的,上述处理器还可以执行如下步骤的程序代码:对样本地址数据进行分割,得到地址元素;确定地址元素的类型,并根据类型对地址元素进行标记;确定标记后的地址元素构成样本数据集。
采用本发明实施例,提供了一种地址信息的处理方法。使用指示器网络模型对待处理地址信息进行处理,指示器网络模型仅需要少量的标注数据,即可自行训练模型,并不需要人工干涉制定不同的人工规则来应对数据文本的增加,可以减少大量的制订规则的人工成本。且指示器网络模型的输出完全来自于模型的输入,是对输入数据的筛选和重新排列,避免了生成词表过大导致的输出不稳定,以及对不在词表内的新词无法处理的情况;且指示器网络模型将此地址文本处理中的去重和地址元素标准化输出两个步骤统一到指示器网络模型中,并通过指示器网络的方式稳定的产生标准化的输出,完成一种端到端的文本转换,在降低地址服务的人工成本的同时提高地址标准化的效率和质量,解决了现有技术中对裁判结果进行的偏离预警不准确的技术问题。
由此,本申请上述实施例解决了现有技术中对裁判结果进行的偏离预警不准确的技术问题。
本领域普通技术人员可以理解,图10所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,计算机终端80还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例8
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的地址信息的处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待处理地址信息;使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种地址信息的处理方法,其特征在于,包括:
获取待处理地址信息;
使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址;
其中,所述指示器网络模型包括:编码器和解码器,所述使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址,包括:将待处理地址信息输入至所述编码器,其中,所述编码器将所述待处理地址信息转换为语义向量;将所述语义向量输入至所述解码器,其中,所述解码器对所述语义向量进行筛选和排序,得到所述待处理地址信息对应的标准化地址;
其中,所述指示器网络模型通过样本数据训练得到,获取所述样本数据,包括:获取多个样本标准化地址;对所述样本标准化地址进行变型,得到所述样本标准化地址对应的至少一个非标准化地址;确定所述样本标准化地址和所述样本标准化地址对应的一个非标准化地址构成一组样本数据。
2.根据权利要求1所述的方法,其特征在于,获取待处理地址信息,包括:
获取地址数据;
从所述地址数据中提取用于表示地址的地址词语;
确定所述地址词语对应的类型,并根据所述类型对所述地址词语进行标记,其中,所述类型用于表示地址词语所属的地址区域级别;
根据预先设置的标准词语对所述地址词语进行归一化处理;
根据所述地址词语的标记确定所述地址数据缺失的地址词语,并补充所述地址数据缺失的地址词语,得到所述待处理地址信息。
3.根据权利要求2所述的方法,其特征在于,根据预先设置的标准词语对所述地址词语进行归一化处理,包括:
确定所述地址词语所指示的地址,并获取所述地址对应的标准词语;
将所述地址词语与所述地址对应的标准词语进行比对;
如果所述地址词语与所述地址对应的标准词语不同,将所述地址词语更改为所述地址对应的标准词语。
4.根据权利要求2所述的方法,其特征在于,根据所述地址词语的标记确定所述地址数据缺失的地址词语,并补充所述地址数据缺失的地址词语,得到所述待处理地址信息,包括:
获取预设的地址区域级别;
检测所述地址数据中地址词语的类型是否包括所述地址区域级别所指示的所有类型;
如果所述地址数据缺少任意一个类型对应的地址词语,则根据所述地址数据中已包括的地址词语获取缺少的地址词语;
将获取到的缺少的地址词语补充至所述地址数据。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述方法还包括:创建所述指示器网络模型,其中,创建所述指示器网络模型的步骤包括:
基于所述样本数据对初始指示器网络模型进行训练。
6.根据权利要求1所述的方法,其特征在于,所述样本标准化地址包括多个地址元素,对所述样本标准化地址进行变型,得到所述标准化地址对应的至少一个非标准化地址,包括如下一项或多项:
删除所述样本标准化地址中的至少一个地址元素;
重复所述样本标准化地址中的至少一个地址元素;
调整所述样本标准化地址中地址元素的顺序。
7.根据权利要求1所述的方法,其特征在于,获取多个样本标准化地址,包括:
获取样本地址数据;
从所述样本地址数据中提取地址元素和所述地址元素的类型,构成样本数据集;
根据所述地址元素的类型从所述样本数据集中筛选多个地址元素;
根据预先设置的标准词语对筛选出的地址元素进行归一化处理;
根据所述地址元素的标记确定所述样本地址数据缺失的地址词语,并补充所述样本地址数据缺失的地址词语,得到所述样本标准化地址。
8.根据权利要求7所述的方法,其特征在于,从所述样本地址数据中提取地址元素和所述地址元素的类型,构成样本数据集,包括:
对所述样本地址数据进行分割,得到地址元素;
确定所述地址元素的类型,并根据所述类型对所述地址元素进行标记;
确定标记后的地址元素构成所述样本数据集。
9.一种地址信息的处理方法,其特征在于,包括:
接收检索式,其中,所述检索式包括文本格式的地址信息;
对所述检索式中的地址信息进行预处理,得到待处理地址信息,其中,所述待处理地址信息包括满足标准条件的地址词语;
使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址,其中,根据样本数据训练所述指示器网络模型;
其中,所述指示器网络模型包括:编码器和解码器,使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址,包括:将待处理地址信息输入至所述编码器,其中,所述编码器将所述待处理地址信息转换为语义向量;将所述语义向量输入至所述解码器,其中,所述解码器对所述语义向量进行筛选和排序,得到所述待处理地址信息对应的标准化地址;
其中,所述指示器网络模型通过样本数据训练得到,获取所述样本数据,包括:获取多个样本标准化地址;对所述样本标准化地址进行变型,得到所述样本标准化地址对应的至少一个非标准化地址;确定所述样本标准化地址和所述样本标准化地址对应的一个非标准化地址构成一组样本数据。
10.根据权利要求9所述的方法,其特征在于,对所述检索式中的地址信息进行预处理,得到待处理地址信息,包括:
从所述检索式中的地址信息中提取用于表示地址的地址词语;
确定所述地址词语对应的类型,并根据所述类型对所述地址词语进行标记,其中,所述类型用于表示地址词语所属的地址区域级别;
根据预先设置的标准词语对所述地址词语进行归一化处理;
根据所述地址词语的标记确定所述检索式缺失的地址词语,并补充所述检索式缺失的地址词语,得到所述待处理地址信息。
11.一种地址信息的处理装置,其特征在于,包括:
获取模块,用于获取待处理地址信息;
处理模块,用于使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址;
其中,所述指示器网络模型包括:编码器和解码器,所述处理模块还用于通过以下步骤使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址:将待处理地址信息输入至所述编码器,其中,所述编码器将所述待处理地址信息转换为语义向量;将所述语义向量输入至所述解码器,其中,所述解码器对所述语义向量进行筛选和排序,得到所述待处理地址信息对应的标准化地址;
其中,所述指示器网络模型通过样本数据训练得到,所述装置还用于通过如下步骤获取所述样本数据:获取多个样本标准化地址;对所述样本标准化地址进行变型,得到所述样本标准化地址对应的至少一个非标准化地址;确定所述样本标准化地址和所述样本标准化地址对应的一个非标准化地址构成一组样本数据。
12.一种地址信息的处理装置,其特征在于,包括:
接收模块,用于接收检索式,其中,所述检索式包括文本格式的地址信息;
预处理模块,用于对所述检索式中的地址信息进行预处理,得到待处理地址信息,其中,所述待处理地址信息包括满足标准条件的地址词语;
处理模块,用于使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址,其中,根据样本数据训练所述指示器网络模型;
其中,所述指示器网络模型包括:编码器和解码器,所述处理模块还用于通过以下步骤使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址:将待处理地址信息输入至所述编码器,其中,所述编码器将所述待处理地址信息转换为语义向量;将所述语义向量输入至所述解码器,其中,所述解码器对所述语义向量进行筛选和排序,得到所述待处理地址信息对应的标准化地址;
其中,所述指示器网络模型通过样本数据训练得到,所述装置还用于通过如下步骤获取所述样本数据:获取多个样本标准化地址;对所述样本标准化地址进行变型,得到所述样本标准化地址对应的至少一个非标准化地址;确定所述样本标准化地址和所述样本标准化地址对应的一个非标准化地址构成一组样本数据。
13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下步骤:
获取待处理地址信息;
使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址;
其中,所述指示器网络模型包括:编码器和解码器,在所述程序运行时还控制所述存储介质所在设备执行如下步骤:将待处理地址信息输入至所述编码器,其中,所述编码器将所述待处理地址信息转换为语义向量;将所述语义向量输入至所述解码器,其中,所述解码器对所述语义向量进行筛选和排序,得到所述待处理地址信息对应的标准化地址;
其中,所述指示器网络模型通过样本数据训练得到,在所述程序运行时还控制所述存储介质所在设备执行如下步骤:获取多个样本标准化地址;对所述样本标准化地址进行变型,得到所述样本标准化地址对应的至少一个非标准化地址;确定所述样本标准化地址和所述样本标准化地址对应的一个非标准化地址构成一组样本数据。
14.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如下步骤:
获取待处理地址信息;
使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址;
其中,所述指示器网络模型包括:编码器和解码器,所述程序运行时还执行如下步骤:将待处理地址信息输入至所述编码器,其中,所述编码器将所述待处理地址信息转换为语义向量;将所述语义向量输入至所述解码器,其中,所述解码器对所述语义向量进行筛选和排序,得到所述待处理地址信息对应的标准化地址;
其中,所述指示器网络模型通过样本数据训练得到,所述程序运行时还执行如下步骤:获取多个样本标准化地址;对所述样本标准化地址进行变型,得到所述样本标准化地址对应的至少一个非标准化地址;确定所述样本标准化地址和所述样本标准化地址对应的一个非标准化地址构成一组样本数据。
15.一种地址信息的处理方法,其特征在于,包括:
对地址数据进行预处理,得到待处理地址信息,其中,所述待处理地址信息至少包括满足标准条件的地址词语;
使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址,其中,根据样本数据训练所述指示器网络;
输出所述标准化地址;
其中,所述指示器网络模型包括:编码器和解码器,所述使用指示器网络模型对所述待处理地址信息进行标准化处理,得到标准化地址,包括:将待处理地址信息输入至所述编码器,其中,所述编码器将所述待处理地址信息转换为语义向量;将所述语义向量输入至所述解码器,其中,所述解码器对所述语义向量进行筛选和排序,得到所述待处理地址信息对应的标准化地址;
其中,所述指示器网络模型通过样本数据训练得到,获取所述样本数据,包括:获取多个样本标准化地址;对所述样本标准化地址进行变型,得到所述样本标准化地址对应的至少一个非标准化地址;确定所述样本标准化地址和所述样本标准化地址对应的一个非标准化地址构成一组样本数据。
CN201910105093.7A 2019-02-01 2019-02-01 地址信息的处理方法和装置 Active CN111538914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910105093.7A CN111538914B (zh) 2019-02-01 2019-02-01 地址信息的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910105093.7A CN111538914B (zh) 2019-02-01 2019-02-01 地址信息的处理方法和装置

Publications (2)

Publication Number Publication Date
CN111538914A CN111538914A (zh) 2020-08-14
CN111538914B true CN111538914B (zh) 2023-05-30

Family

ID=71972842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910105093.7A Active CN111538914B (zh) 2019-02-01 2019-02-01 地址信息的处理方法和装置

Country Status (1)

Country Link
CN (1) CN111538914B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461540B (zh) * 2022-04-12 2022-07-12 湖南三湘银行股份有限公司 一种地址归一化的处理系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240710A (ja) * 1997-02-27 1998-09-11 Nri & Ncc Co Ltd 住所位置特定装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065694A1 (en) * 2006-09-08 2008-03-13 Google Inc. Local Search Using Address Completion
SG10201610116PA (en) * 2016-11-03 2018-06-28 Avanseus Holdings Pte Ltd Method and system for machine failure prediction
US10929799B2 (en) * 2017-06-29 2021-02-23 Amazon Technologies, Inc. Identification of inaccurate addresses for package deliveries

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240710A (ja) * 1997-02-27 1998-09-11 Nri & Ncc Co Ltd 住所位置特定装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张文豪 ; 卢山 ; 程光 ; .基于LSTM网络的中文地址分词法的设计与实现.计算机应用研究.2017,(12),1-5. *
谷斌 ; 靳艳峰 ; 张昶 ; .应用产生式规则的邮政地址标准化方法研究.邮政研究.2013,第29卷(第02期),8-10. *

Also Published As

Publication number Publication date
CN111538914A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
WO2021017679A1 (zh) 地址信息解析方法、装置、系统及数据获取方法
CN103390258B (zh) 基于信息码的实验室物品信息管理系统
CN109255564B (zh) 一种取件点地址推荐方法及装置
CN111382212B (zh) 关联地址获取方法、装置、电子设备及存储介质
CN108197177B (zh) 业务对象的监测方法、装置、存储介质和计算机设备
CN112632213A (zh) 地址信息标准化方法及装置、电子设备、存储介质
CN114881989A (zh) 基于小样本目标对象缺陷检测的方法、装置、电子设备
CN112860905A (zh) 文本信息抽取方法、装置、设备及可读存储介质
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN110968712A (zh) Bim族模型获取的方法、装置及系统
CN110968730A (zh) 音频标记处理方法、装置、计算机设备及存储介质
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN110909110B (zh) 地址的标准化方法、装置、存储介质及处理器
CN111538914B (zh) 地址信息的处理方法和装置
CN112069824B (zh) 基于上下文概率和引证的地域识别方法、装置及介质
CN111062448B (zh) 设备类型的识别模型训练方法、设备类型识别方法和装置
CN113505273A (zh) 基于重复数据筛选的数据排序方法、装置、设备及介质
CN110189171B (zh) 特征数据的生成方法、装置及设备
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN112580505B (zh) 网点开关门状态识别方法、装置、电子设备及存储介质
CN111723164B (zh) 地址信息的处理方法和装置
CN112488200A (zh) 物流地址特征提取方法、系统、设备及存储介质
CN113449002A (zh) 车辆推荐方法、装置、电子设备及存储介质
CN112396111A (zh) 文本意图分类方法、装置、计算机设备及存储介质
CN114723488B (zh) 课程推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant