CN111274802B - 一种地址数据的有效性判断方法及其装置 - Google Patents

一种地址数据的有效性判断方法及其装置 Download PDF

Info

Publication number
CN111274802B
CN111274802B CN201811378803.5A CN201811378803A CN111274802B CN 111274802 B CN111274802 B CN 111274802B CN 201811378803 A CN201811378803 A CN 201811378803A CN 111274802 B CN111274802 B CN 111274802B
Authority
CN
China
Prior art keywords
address data
address
data
effective
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811378803.5A
Other languages
English (en)
Other versions
CN111274802A (zh
Inventor
谢朋峻
刘楚
郑华飞
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811378803.5A priority Critical patent/CN111274802B/zh
Publication of CN111274802A publication Critical patent/CN111274802A/zh
Application granted granted Critical
Publication of CN111274802B publication Critical patent/CN111274802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种地址数据的有效性判断方法及其装置,所述方法包括:通过对地址数据执行分词处理,获取与地址数据对应的多个分词;将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;生成与所述概率对应的针对地址数据的有效值。采用本申请,可自动判断地址数据的有效性。

Description

一种地址数据的有效性判断方法及其装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种地址数据的有效性判断方法及其装置。
背景技术
随着互联网的兴起,各种在线应用会产生大量的地址数据。但由于地址采集或输入的不规范等问题,这些地址数据中存在很多错误、虚假、不存在的无效地址,这类地址给这些应用带来了诸多麻烦,例如,在外卖类应用中,如果外卖地址是无效地址,则会使外卖员无法及时联系到顾客,在官方系统中,如果用户地址为无效地址,则会使政府人员无法上门采集信息。
基于此,需要对产生的地址数据判断有效性。在现有技术中,通常采用人工审核的方式判断地址数据的有效性,这种方法费时费力,不宜推广。因此,现有技术需要一种对地址数据自动判断有效性的技术方案。
发明内容
本申请的主要目的在于提供一种地址数据的有效性判断方法及其装置,旨在解决以上提到自动判断地址数据的有效性的问题。
本申请的示例性实施例提供一种地址数据的有效性判断方法,所述方法包括:通过对地址数据执行分词处理,获取与地址数据对应的多个分词;将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;生成与所述概率对应的针对地址数据的有效值。
本申请的另一示例性实施例提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现上述方法。
本申请的另一示例性实施例提供一种地址数据的有效性判断装置,所述装置包括处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:通过对地址数据执行分词处理,获取与地址数据对应的多个分词;将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;生成与所述概率对应的针对地址数据的有效值。
本申请的另一示例性实施例提供一种地址数据处理系统,所述系统包括地址采集模块,用于采集多数据源的地址数据;地址筛除模块,用于判断采集的地址数据中的每个地址数据是否有效;将判断为无效的地址数据从采集的地址数据中筛除;将筛除掉无效的地址数据的地址数据作为训练地址数据执行分词处理,获取与训练地址数据对应的多个训练分词;地址语言模型模块,用于将输入的地址数据执行分词处理,获取多个分词,将所述多个分词输入利用所述多个训练分词训练完成的地址语言模型,获取所述多个分词顺序出现的概率。转换模块,用于将获取的所述多个分词顺序出现的概率转换为输入的地址数据的有效值。
本申请示例性实施例采用的上述至少一个技术方案能够达到以下有益效果:
利用地址语言模型组件来计算地址数据中各个分词顺序出现的概率,便于在量化地址数据的有效性的基础上批量处理地址数据,节省了人力。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是示出应用于本申请的示例性实施例的地址数据处理的场景图;
图2是根据本申请的示例性实施例的地址数据的有效性判断方法的流程图;
图3是根据本申请的示例性实施例的地址数据的有效性判断装置的框图;
图4是应用根据本申请的示例性实施例的地址数据的有效性判断方法的服务器的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本申请保护的范围。
在介绍本申请的示例性实施例前,为了方便本领域技术人员更好的理解本申请,首先对本申请中涉及的术语进行解释。
地址数据是指包含地址信息的数据,例如,“杭州文一西路969号阿里巴巴”。
语言模型是指用于计算句子的概率的模型,可用P(W1,W2,...Wk)来表示所语言模型,其中,W1,W2,...Wk表示构成某一个句子的各个分词。利用语言模型可确定分词顺序构成句子的概率。而在本申请中,可将每个地址当做句子计算每个地址的概率,从而确定地址数据的有效性。
有效值是指通过量化指标确定某一地址的有效性,若有效值高则说明某一地址更有效,若有效值低则说明该地址可能是无效地址。
标准地址是指对某一地点的标准化描述,例如,若地点为“阿里巴巴西溪园区”,则该地点的标准地址可以是包含“省、市、区、街道、路、路号、POI”的地址,也就是“浙江省杭州市余杭区五常街道文一西路969号阿里巴巴西溪园区”。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是示出应用于本申请的示例性实施例的地址数据处理的场景图。如图1所示,所述数据处理系统包括作为数据提供方的服务器组100和处理服务器组100提供的数据的服务器200。应注意,所述数据处理系统还可包括其它装置,例如,通信基站,但为了避免由于公知的方法、过程、组件和电路来模糊本实施例,在此将省略与本发明的构思无关的部件。
虽然在图1中示出的服务器组100可包括服务器101、服务器102和服务器103,服务器101至103可表示存储有不同来源的地址数据的服务器,例如,服务器101可以是购物类应用(例如,京东、淘宝)的服务器,服务器102可以是导航类应用(例如,高德)的服务器,而服务器103可以是某一政府部门用于存储上门采集的地址数据的服务器。在图1中,服务器组100以及服务器200的数量仅为示例性的,在实际使用中用户可根据需求增加服务器的数量。
服务器200可从服务器101至103中获取大量的地址数据,随后,可利用这些地址数据对地址语言模型组件进行训练。服务器200可利用训练完成的地址语言模型组件对用户输入的地址数据进行有效性判断。为了更清楚地描述根据本申请的示例性的地址数据的有效性判断方法,以下将参照图2详细说明根据本申请的示例性的地址数据的有效性判断方法。
图2示出了根据本申请的示例性实施例的地址数据的有效性判断方法的流程图。
在步骤S210中,通过对地址数据执行分词处理,获取与地址数据对应的多个分词。具体来说,所述地址数据可以是用户输入的信息中所包括的地址数据也可以是从如图1中的服务器组100接收的地址数据。因此,可先确定地址数据,随后对所述地址数据执行分词处理,例如,用户可输入信息“我特别想去阿里巴巴西溪园区”,则可先确定地址数据为“阿里巴巴西溪园区”,随后对“阿里巴巴西溪园区”执行分词处理。根据本申请的示例性实施例,可利用基于词典的方法对所述地址数据执行分词处理,从而获取与地址数据对应的多个分词。
随后,在步骤S220中,将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的。
根据本申请的示例性实施例,可将地址数据当作由不同分词按照顺序构成的句子,在此情况下,利用地址语言模型组件计算所述地址数据的概率可被理解为利用地址语言模型组件计算地址数据中各个分词顺序出现的概率。以下将描述所述地址语言模型组件被设置为按照下述方式训练得到:获取来自不同数据源的地址数据,例如,来自购物类应用的地址数据、来自导航类应用的地址数据以及人工采集的地址数据。随后,对所述不同数据源的地址数据执行筛选处理,获取多个有效地址数据。根据本申请的示例性实施例,可预先设置与数据源的类型对应的筛选方式,随后,根据数据源的不同,采用不同的筛选方式,例如,若是购物类应用提供的地址数据,则确定该地址数据是否有快递送达过,若该地址从未有快递签收成功的信息,则将该地址数据筛除,而若是人工采集的地址数据,则确定上门服务是否成功,若不成功,则将该地址数据筛除。
根据本申请的示例性实施例,为了更好地训练所述地址语言模型组件,可在实施过程中,可将筛选后的有效地址数据转换为标准格式的标准地址数据,其中,所述标准格式可以是用户根据需要提前确定的,例如,当确定所述地址数据为“阿里巴巴西溪园区”时,可将该地址转换为“浙江省杭州市余杭区五常街道文一西路969号阿里巴巴西溪园区”。可利用不同数据源中针对同一地址的地址数据来实现关于地址数据转换为标准地址数据的操作。
在确定了所述多个有效地址数据后,可对所述多个有效地址数据中的每个有效地址数据执行分词处理,获取与每个有效地址数据对应的多个有效分词。例如,可对“浙江省杭州市余杭区五常街道文一西路969号阿里巴巴西溪园区”执行分词处理,获取“浙江省”、“杭州市”、“余杭区”、“五常街道”、“文一西路”、“969号”、“阿里巴巴”、“西溪园区”。
最后,利用所述多个有效分词按照顺序形成每个有效地址数据的对应关系对地址语言模型组件进行训练。所述地址语言模型组件可利用公式1来计算句子的概率。
P(S)=P(W1,W2,...,Wk)=p(W1)P(W2|W1)...P(Wk|W1,W2,...,Wk-1)公式1
其中,P(S)表示句子出现的概率,P(W1,W2,...Wk)表示构成句子S的分词W1,W2,...Wk顺序出现的概率。可选地,所述地址语言模型组件可以是统计地址语言模型组件(例如,srilm),还可以是深度学习地址语言模型组件(例如,循环神经网络(RecurrentNeural Network,RNN))
为了便于用户直观地判断地址数据的有效性,在步骤S230,生成与在步骤S220中获取的概率对应的针对地址数据的有效值,其中,所述有效值可利用数值表示地址数据的有效性。概率越大,则地址数据的有效值越大,表示地址数据有效的可能性越大,而若概率越小,则地址数据的有效值越小,表示地址数据无效的可能性越大。
综上可述,根据本申请的示例性实施例的地址数据的有效性判断方法利用地址语言模型组件来计算地址数据中各个分词顺序出现的概率,便于在量化地址数据的有效性的基础上批量处理地址数据,节省了人力。更进一步地,可利用所述概率生成地址的有效值,使得用户更直观地判断所述地址数据的有效性。在此过程中,所述方法还可在训练地址语言模型组件的过程中采用有效地址数据,使得地址语言模型组件的结果更准确。
下面将参照图3进一步描述根据本申请的示例性实施例的地址数据的有效性判断装置的框架图。虽然在图3中示出,数据源包括购物类APP、导航类APP以及人力采集的数据源,但是本领域技术人员应理解本申请适用于可获取地址数据的所有数据源,也就是说,不同数据源包括来自各种应用对应(例如,购物类APP、导航类APP)的服务器的数据、来自各种网站对应的服务器的数据以及上门采集的数据。
数据采集模块可采集所述数据源,应注意,数据采集模块可根据数据源的不同采用不同方式获取地址数据,例如,针对来自不同APP的地址数据,可利用不同APP的应用程序编程接口(Application Programming Interface,API)来爬取预定区域内的POI数据,而针对上门采集的地址数据,可通过访问存储这些地址的数据库来获取地址数据。
随后数据采集模块可将获取的数据发送到数据筛除模块,数据筛除模块可对获取的数据执行筛除操作,该筛除操作用于筛除这些数据中无效的地址数据。具体来说,根据本申请的示例性实施例,可预先设置与数据源的类型对应的筛选方式,随后,根据数据源的不同,采用不同的筛选方式,例如,若是购物类应用提供的地址数据,则确定该地址数据是否有快递送达过,若该地址从未有快递签收成功的信息,则将该地址数据筛除,而若是人工采集的地址数据,则确定上门服务是否成功,若不成功,则将该地址数据筛除。为了更准确地对地址语言模型模块进行训练,数据筛除模块可优选标准格式的地址数据,并将标准格式的地址数据执行分词处理,将该地址数据执行分词处理后获取的多个分词发送到地址数据模型模块,所述地址数据模型模块可利用数据筛除模块发送的地址数据进行训练。
随后,当接收到地址数据后,可将地址数据执行分词处理,并将分词处理后的地址数据发送到已经训练完成的地址语言模型模块,地址语言模型模块可输出与该地址数据对应的概率,也就是地址语言模型模块根据训练数据之间的规律确定该地址数据中各个分词顺序出现的概率。
随后,可将该概率值发送到转换模块,转换模块将该概率值转换为有效值,这样,用户可根据有效值直观地判断出该地址数据的有效性。
为了更清楚地明白本申请的示例性实施例的发明构思,以下将参照图4描述本申请的示例性实施例的地址数据的有效性判断装置的框图,所述地址数据的有效性判断装置可以是执行根据本申请的示例性实施例的数据处理方法的服务器(例如,图1中的服务器200)。本领域普通技术人员将理解:图4中的装置仅示出了与本示例性实施例相关的组件,所述装置中还包括除了图4中示出的组件之外的通用组件。
图4示出本申请的示例性实施例的地址数据的有效性判断装置的框图。参考图4,在硬件层面,该装置包括处理器、内部总线和计算机可读存储介质,其中,所述计算机可读存储介质包括易失性存储器和非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序然后运行。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
具体来说,所述处理器执行以下操作:通过对地址数据执行分词处理,获取与地址数据对应的多个分词;将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的。
可选地,所述地址语言模型组件被设置为按照下述方式训练得到:获取来自不同数据源的地址数据;对所述不同数据源的地址数据执行筛选处理,获取多个有效地址数据;对所述多个有效地址数据中的每个有效地址数据执行分词处理,获取与每个有效地址数据对应的多个有效分词;利用所述多个有效分词按照顺序形成每个有效地址数据的对应关系对地址语言模型组件进行训练。
可选地,所述处理器在实现步骤对所述不同数据源的地址数据执行筛选处理获取有效地址数据包括:确定所述不同数据源的地址数据的数据源;利用与数据源的类型对应的筛选方法对所述不同数据源的地址数据执行筛选处理,获取有效地址数据。
可选地,所述地址语言模型组件包括统计地址语言模型组件和深度学习地址语言模型组件。
可选地,所述处理器在实现步骤获取所述多个分词顺序出现的概率后包括:生成与所述概率对应的针对地址数据的有效值。
根据本申请的示例性实施例,提供一种地址数据的有效性判断系统,包括:地址采集模块,用于采集多数据源的地址数据;地址筛除模块,用于判断采集的地址数据中的每个地址数据是否有效;将判断为无效的地址数据从采集的地址数据中筛除;将筛除掉无效的地址数据的地址数据作为训练地址数据执行分词处理,获取与训练地址数据对应的多个训练分词;地址语言模型模块,用于将输入的地址数据执行分词处理,获取多个分词,将所述多个分词输入利用所述多个训练分词训练完成的地址语言模型,获取所述多个分词顺序出现的概率。转换模块,用于将获取的所述多个分词顺序出现的概率转换为输入的地址数据的有效值。
综上可述,根据本申请的示例性实施例的地址数据的有效性判断装置利用地址语言模型组件来计算地址数据中各个分词顺序出现的概率,便于在量化地址数据的有效性的基础上批量处理地址数据,节省了人力。更进一步地,可利用所述概率生成地址的有效值,使得用户更直观地判断所述地址数据的有效性。在此过程中,所述方法还可在训练地址语言模型组件的过程中采用有效地址数据,使得地址语言模型组件的结果更准确。
需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤21和步骤22的执行主体可以为设备1,步骤23的执行主体可以为设备2;又比如,步骤21的执行主体可以为设备1,步骤22和步骤23的执行主体可以为设备2;等等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种地址数据的有效性判断方法,其特征在于,包括:
通过对地址数据执行分词处理,获取与地址数据对应的多个分词;
将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;
生成与所述概率对应的针对地址数据的有效值;
其中,所述地址语言模型组件被设置为按照下述方式训练得到:
获取来自不同数据源的地址数据;确定所述不同数据源的地址数据的数据源;利用与数据源的类型对应的筛选方法对所述不同数据源的地址数据执行筛选处理;将筛选后的有效地址数据转换为标准格式,得到标准格式的多个有效地址数据;对所述多个有效地址数据中的每个有效地址数据执行分词处理,获取与每个有效地址数据对应的多个有效分词;利用所述多个有效分词按照顺序形成每个有效地址数据的对应关系对地址语言模型组件进行训练。
2.如权利要求1所述的方法,其特征在于,所述地址语言模型组件包括统计地址语言模型组件和深度学习地址语言模型组件。
3.如权利要求1所述的方法,其特征在于,所述不同数据源包括来自各种应用对应的服务器的数据、来自各种网站对应的服务器的数据以及上门采集的数据。
4.一种地址数据的有效性判断装置,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
通过对地址数据执行分词处理,获取与地址数据对应的多个分词;
将所述多个分词输入到地址语言模型组件,获取所述多个分词顺序出现的概率,其中,所述地址语言模型组件是利用构成有效地址数据的分词训练得到的;
生成与所述概率对应的针对地址数据的有效值;
其中,所述地址语言模型组件被设置为按照下述方式训练得到:
获取来自不同数据源的地址数据;确定所述不同数据源的地址数据的数据源;利用与数据源的类型对应的筛选方法对所述不同数据源的地址数据执行筛选处理;将筛选后的有效地址数据转换为标准格式,得到标准格式的多个有效地址数据;对所述多个有效地址数据中的每个有效地址数据执行分词处理,获取与每个有效地址数据对应的多个有效分词;利用所述多个有效分词按照顺序形成每个有效地址数据的对应关系对地址语言模型组件进行训练。
5.如权利要求4所述的装置,其特征在于,所述地址语言模型组件包括统计地址语言模型组件和深度学习地址语言模型组件。
6.如权利要求4所述的装置,其特征在于,所述处理器在实现步骤获取所述多个分词顺序出现的概率后包括:
生成与所述概率对应的针对地址数据的有效值。
7.一种地址数据的有效性判断系统,其特征在于,包括:
地址采集模块,用于采集来自不同数据源的地址数据;
地址筛选模块,用于确定所述不同数据源的地址数据的数据源;利用与数据源的类型对应的筛选方法对所述不同数据源的地址数据执行筛选处理;将筛选后的有效地址数据转换为标准格式,得到标准格式的多个有效地址数据;将所述有效地址数据作为训练地址数据执行分词处理,获取与训练地址数据对应的多个训练分词;
地址语言模型模块,用于将输入的地址数据执行分词处理,获取多个分词,将所述多个分词输入利用所述多个训练分词训练完成的地址语言模型,获取所述多个分词顺序出现的概率;
转换模块,用于将获取的所述多个分词顺序出现的概率转换为输入的地址数据的有效值。
CN201811378803.5A 2018-11-19 2018-11-19 一种地址数据的有效性判断方法及其装置 Active CN111274802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811378803.5A CN111274802B (zh) 2018-11-19 2018-11-19 一种地址数据的有效性判断方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811378803.5A CN111274802B (zh) 2018-11-19 2018-11-19 一种地址数据的有效性判断方法及其装置

Publications (2)

Publication Number Publication Date
CN111274802A CN111274802A (zh) 2020-06-12
CN111274802B true CN111274802B (zh) 2023-04-18

Family

ID=70999912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811378803.5A Active CN111274802B (zh) 2018-11-19 2018-11-19 一种地址数据的有效性判断方法及其装置

Country Status (1)

Country Link
CN (1) CN111274802B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131706A (zh) * 2007-09-28 2008-02-27 北京金山软件有限公司 一种查询修正方法及系统
CN102024024A (zh) * 2010-11-10 2011-04-20 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN102169498A (zh) * 2011-04-14 2011-08-31 中国测绘科学研究院 一种地址模型的构建方法,以及地址匹配的方法和系统
CN104598573A (zh) * 2015-01-13 2015-05-06 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及系统
CN104657361A (zh) * 2013-11-18 2015-05-27 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN105227618A (zh) * 2014-07-04 2016-01-06 中国移动通信集团广东有限公司 一种通信站点位置信息处理方法及系统
CN105630764A (zh) * 2015-12-22 2016-06-01 百度在线网络技术(北京)有限公司 有限状态机的地址解析方法及装置
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
CN106339404A (zh) * 2016-06-30 2017-01-18 北京奇艺世纪科技有限公司 一种搜索词识别方法及装置
CN108509441A (zh) * 2017-02-24 2018-09-07 菜鸟智能物流控股有限公司 一种地址有效性分类器的训练及其验证方法和相关装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912707B2 (en) * 2006-12-19 2011-03-22 Microsoft Corporation Adapting a language model to accommodate inputs not found in a directory assistance listing
US9898529B2 (en) * 2014-06-30 2018-02-20 International Business Machines Corporation Augmenting semantic models based on morphological rules
US9805713B2 (en) * 2015-03-13 2017-10-31 Google Inc. Addressing missing features in models

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131706A (zh) * 2007-09-28 2008-02-27 北京金山软件有限公司 一种查询修正方法及系统
CN102024024A (zh) * 2010-11-10 2011-04-20 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN102169498A (zh) * 2011-04-14 2011-08-31 中国测绘科学研究院 一种地址模型的构建方法,以及地址匹配的方法和系统
CN104657361A (zh) * 2013-11-18 2015-05-27 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN105227618A (zh) * 2014-07-04 2016-01-06 中国移动通信集团广东有限公司 一种通信站点位置信息处理方法及系统
CN104598573A (zh) * 2015-01-13 2015-05-06 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及系统
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
CN105630764A (zh) * 2015-12-22 2016-06-01 百度在线网络技术(北京)有限公司 有限状态机的地址解析方法及装置
CN106339404A (zh) * 2016-06-30 2017-01-18 北京奇艺世纪科技有限公司 一种搜索词识别方法及装置
CN108509441A (zh) * 2017-02-24 2018-09-07 菜鸟智能物流控股有限公司 一种地址有效性分类器的训练及其验证方法和相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张红文 ; .地名地址匹配模型构建方法研究.科学咨询(科技・管理).2016,(第07期),全文. *
赵卫锋 ; 张勤 ; .非结构化中文自然语言地址描述的自动识别.计算机工程与应用.2016,(第23期),全文. *

Also Published As

Publication number Publication date
CN111274802A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN109977366B (zh) 一种目录生成方法及装置
CN109918296B (zh) 软件自动化测试方法及装置
CN110647562B (zh) 一种数据查询方法和装置、电子设备、存储介质
CN106897342B (zh) 一种数据校验方法和设备
CN110874702B (zh) 物流分拣场景下的模型训练方法、装置以及电子设备
CN110717536A (zh) 一种生成训练样本的方法及装置
CN110740356A (zh) 基于区块链的直播数据的监控方法及系统
CN109102026B (zh) 一种车辆图像检测方法、装置及系统
CN117035452A (zh) 一种业务场景的根因定位方法、系统及电子设备
CN106878365B (zh) 一种数据同步方法和设备
CN111681049A (zh) 用户行为的处理方法、存储介质及相关设备
CN114943307A (zh) 一种模型训练的方法、装置、存储介质以及电子设备
CN110743169B (zh) 基于区块链的防作弊方法及系统
CN114398315A (zh) 一种数据存储方法、系统、存储介质及电子设备
CN106250499B (zh) 一种视频对挖掘方法及装置
CN107168866B (zh) 一种配置文件的参数解析方法及装置
CN111274802B (zh) 一种地址数据的有效性判断方法及其装置
CN114238402A (zh) 告警数据处理方法、装置、存储介质以及电子设备
CN107016028B (zh) 数据处理方法及其设备
CN113132891B (zh) 一种基于移动信令的客流统计方法和系统
CN112289026B (zh) 一种车辆路径还原方法、设备及介质
CN111343105B (zh) 基于深度学习的断流识别方法及装置
CN113076451B (zh) 异常行为识别和风险模型库的建立方法、装置及电子设备
CN111435450A (zh) 一种道路数据处理方法及其装置
CN110020348B (zh) 圈选事件的预警方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant