CN109388634A - 地址信息的处理方法、终端设备及计算机可读存储介质 - Google Patents
地址信息的处理方法、终端设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109388634A CN109388634A CN201811084954.XA CN201811084954A CN109388634A CN 109388634 A CN109388634 A CN 109388634A CN 201811084954 A CN201811084954 A CN 201811084954A CN 109388634 A CN109388634 A CN 109388634A
- Authority
- CN
- China
- Prior art keywords
- address
- address information
- text snippet
- alternative
- raw
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000004140 cleaning Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000015654 memory Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000005406 washing Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000000465 moulding Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 abstract description 4
- 238000005201 scrubbing Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000004883 computer application Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明适用于计算机应用技术领域,提供了地址信息的处理方法、终端设备及计算机可读存储介质,包括:接收待处理的原地址信息,将原地址信息通过预设的数据清洗模型进行数据,清洗生成原地址信息的文本摘要,将文本摘要输入到预设的地图信息网站中得到备选地址;根据文本摘要和备选地址识别与原地址信息匹配的备选地址为目标地址。通过将获取到的原地址信息进行数据清理得到文本摘要,再将文本摘要通过至少一个地图信息网站得到备选地址,并识别与原地址信息最匹配的备选地址作为目标地址,提高了地址信息规范化过程的效率,实现了地址信息的模板化和统一化。
Description
技术领域
本发明属于计算机应用技术领域,尤其涉及地址信息的处理方法、终端设备及计算机可读存储介质。
背景技术
在很多项目进行过程中,需要获取到全面、精确、格式统一的企业信息或者用户信息,例如公司名称、统一社会信用代码、公司地址、法定代表人以及用户地址等信息。而在获取一些企业的单位地址或者用户的住址的时候,很多情况下获取到的地址信息都不够规范,不能清楚、明确的通过这些获取到的信息确定目标对象的实际地址。
现有技术中为了保证地址信息的精确性,都是人为上门或者实际查询进行排查和修改地址,这种在地址信息较多的情况下,增大了工作量和处理时间,不能保证地址信息的处理效率。
发明内容
有鉴于此,本发明实施例提供了地址信息的处理方法、终端设备及计算机可读存储介质,以解决现有技术中在地址信息较多的情况下,增大了工作量和处理时间,不能保证地址信息的处理效率的问题。
本发明实施例的第一方面提供了一种地址信息的处理方法,包括:
接收待处理的原地址信息;
将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;所述清洗模型为基于预设的语料库进行训练得到;
将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址;
根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。
本发明实施例的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收待处理的原地址信息;
将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;所述清洗模型为基于预设的语料库进行训练得到;
将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址;
根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例与现有技术相比存在的有益效果是:
本发明实施例通过接收待处理的原地址信息,将原地址信息通过预设的数据清洗模型进行数据,清洗生成原地址信息的文本摘要,将文本摘要输入到预设的地图信息网站中得到备选地址;根据文本摘要和备选地址识别与原地址信息匹配的备选地址为目标地址。通过将获取到的原地址信息进行数据清理得到文本摘要,再将文本摘要通过至少一个地图信息网站得到备选地址,并识别与原地址信息最匹配的备选地址作为目标地址,提高了地址信息规范化过程的效率,实现了地址信息的模板化和统一化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的地址信息的处理方法的流程图;
图2是本发明实施例二提供的地址信息的处理方法的流程图;
图3是本发明实施例三提供的终端设备的示意图;
图4是本发明实施例四提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
参见图1,图1是本发明实施例一提供的地址信息的处理方法的流程图。本实施例中地址信息的处理方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端,还可以是台式电脑等。如图所示的地址信息的处理方法可以包括以下步骤:
S101:接收待处理的原地址信息。
目前,互联网正处于高速发展时期,网络信息也出现了爆炸式增长的情况。随着各种移动终端设备的流行,人们逐渐舍弃了纯手工文本,开始频繁使用电子文本进行工作、记录和交流等,尤其依赖于从网络上获取有效的信息资源。然而,网络环境中的信息资源数量极其庞大,杂乱无章,很多数据、信息都没有统一的显示方法。尤其是在一些人力、企业的管理方面,人力信息和企业信息的归档不统一很常见,这种情况很容易造成信息错误或者不对号的问题发生。尤其是对企业地址进行处理的时候,很多地址信息都不够规范化,没有明确、统一的表述方式,这样为之后的信息处理造成较大的困难和阻碍。
在本实施例中,通过获取待处理的原地址信息,对其进行处理得到符合标准的地址信息表述方式。可以通过各种方式来获得待处理的原地址信息,示例性的,可以由用户直接输入,或者通过现有的新词检测方法等从包含该待规范化的原地址信息的语句中检测出该待处理的原地址信息,此处不做限定。
需要说明的是,本实施例中的原地址信息用于表示企业负责人或者网络上的各种企业的地址信息,这些原地址信息一般情况下都不符合管理、统计规范,或者没有统一的描述标准,不能统一、清楚的表示出该处的地址信息。
S102:将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要。
在获取到待处理的原地址信息之后,考虑到每个原地址信息都不够正规,但是其中又包含了各种类型的关键词信息,因此,需要在本实施例中,通过预设的数据清洗模型进行数据清洗,得到文本摘要。
需要说明的是,本实施例中的文本摘要包括至少一个用于表示原地址信息的关键词,关键词用于表示每个单独的词语,这些词语可以完全说明该原地址信息中的内容。示例性的,例如,北京市东城区景山前街4号,其中的由关键词组成的文本摘要便可以是“北京市”、“东城区”、“景山前街”“4号”。在本实施例中,将原地址信息中的零散信息通过文本摘要中的关键词表示出来,以使在不对原地址信息中的信息做出删减或者其他改动的情况下,保证地址信息的精简性和完整性。
在实际应用中,本实施例中的数据清洗模型是通过对语料库中的数据进行预先训练得到的。数据清洗是将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除,最后整理成为我们可以进一步加工、使用的数据。在对数据进行清洗中,包括了对数据值缺失的处理,通常使用的方法包括但不限于删除缺失值、均值填补法以及热卡填补法。其中,删除缺失值是当样本数很多的时候,并且出现缺失值的样本在整个的样本的比例相对较小,这种情况下,我们可以使用最简单有效的方法处理缺失值的情况。那就是将出现有缺失值的样本直接丢弃。这是一种很常用的策略。均值填补法是根据缺失值的属性相关系数最大的那个属性把数据分成几个组,然后分别计算每个组的均值,把这些均值放入到缺失的数值里面就可以了。热卡填补法是对于一个包含缺失值的变量,热卡填充法的做法是:在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。然后把所有变量按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。除此之外,还有类似于最近距离决定填补法、回归填补法、多重填补方法、K-最近邻法、有序最近邻法、基于贝叶斯的方法等,在本实施例中不做限定。
S103:将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址。
在获取到原地址信息中的文本摘要之后,文本摘要信息并不能全面的表示每个地址信息,需要通过该文本摘要信息获取到完整的地址信息。将该文本摘要信息输入到预设的地图信息网站中,得到至少一个备选地址。
需要说明的是,在本实施例中,地图信息网站可以是当前的各种地图导航软件,具体的软件名称本实施例不再提及。在地图导航软件中存储有大量的地图数据,这些地图数据包括但不限于:兴趣点名称、具体的地址、路径等信息。通过将文本摘要中的关键词输入到这些地图导航软件中进行搜索,便可以获取到至少一个备选地址。
S104:根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。
在实际应用中,由于不同的地图导航软件中的数据信息不同,所以将会获得不同的备选地址。而这些备选地址中可能存在差异,因此,需要将从地图信息网站中获取到的所有备选地址进行筛选,选择出最符合规范、最贴近原地址信息的一个备选地址。
在本实施例中,原地址信息的文本摘要是由全部的关键词信息组成,而通过文本摘要得到的备选地址中可能包含一个或者多个关键词。其中包含的关键词越多,则越能说明该备选地址可以完整无误的表示原地址信息。因此,在本实施例中,通过备选地址中所包含的关键词的情况确定备选地址与原地址信息的匹配情况,并识别与原地址信息匹配的备选地址作为目标地址。
上述方案,通过接收待处理的原地址信息;将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;所述清洗模型为基于预设的语料库进行训练得到;将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址;根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。通过将获取到的原地址信息进行数据清理得到文本摘要,再将文本摘要通过至少一个地图信息网站得到备选地址,并识别与原地址信息最匹配的备选地址作为目标地址,提高了地址信息规范化过程的效率,实现了地址信息的模板化和统一化。
参见图2,图2是本发明实施例二提供的地址信息的处理方法的流程图。如图所示的地址信息的处理方法可以包括以下步骤:
S201:基于预设的条件随机场算法模型、预设的注意力模型和预设的文本摘要生成模型,对所述语料库进行训练,得到数据清洗模型。
在本实施例中,对语料库中的数据进行训练得到数据清洗模型的过程中,是基于条件随机场(Conditional Random Field,CRF)模型、注意力模型和长短期记忆网络(LongShort-Term Memory,LSTM)来生成数据清洗模型。需要说明的是,本实施例中的数据清洗模型用于生成原地址信息的文本摘要,在该模型的实际应用中,输入的信息是原地址信息,通过数据清洗模型得到原地址信息的文本摘要。
具体的,在对语料库进行训练得到数据清洗模型的过程中,首先,获取到通过人工标准的训练集数据,即从预设的语料库中获取文字数据。这些训练集数据中标注了分词的位置,确定出不同字符所对应的分词位置,其中分词位置包括分词的开始位置、结束位置和中间位置。
其次,对获取到的训练集数据进行预处理和特征提取。通过筛选出非目标的字符:给定一个中文字符,首先判断它是否属于标点符号、数字、中文数字或者字母;如果不属于其中的任何一类,则统计该字符在训练语料中出现的时候所处在的词的位置,用B、M、E、S表示,其中,B用于表示该字符是每个词的开始;M用于表示该字符在某个词的中间位置;E用于表示该字符是某个词的结束位置;S用于表示该字符能独立的构成一个词。通过规则统计匹配字符的位置,统计字符对应的位置内容,判定出该字符的位置类别;示例性的,本方案采取的阈值为90%,只要字符位置出现频次超过总次数的90%,则认为该字符大多数处于词语的对应的字符;
之后,通过CRF模型来预测关键字符的位置。具体的,在本实施例中CRF模型所采取的特征可以包括N-gram特征,该特征中可包括但不限于如ci、cici+1以及cici+2等特征。其中,ci用于表示前后两个关键词所对应的字符类型,其中i=-2、-1、0、1、2或者5个特征;cici+1用于表示相邻间隔的字符组合特征,其中i=-2、-1、0、1或者4个特征;cici+2用于表示相隔一个字符的字符组合特征,其中i=-1、0或者2个特征。本实施例中的CRF模型所采取的特征还可以包括字符重复信息特征,计算某个字符是否与前三个字符是重复字符,函数设定为duplication(c0,ci),其中,i=-2、-1或者2个特征。在本实施例中CRF模型所采取的特征还可以包括字符类别特征,用于计算该字符之前的三个字符类型。
在本实施例中,CRF模型所采取的字符分类结果包括但不限于表1所示的字符类型:
表1 CRF模型中的字符类型
基于以上步骤得到特征以及分类结果,以深度神经网络作为训练模型,进行网络的构建。在本方案中,主要是4层神经网络,包括输入层、第一隐藏层、第二隐藏层以及输出层。具体的,输入层包括一个节点,1维度乘以16维度的向量,作为输出层的向量;第一隐藏层包括100个节点,1维度*100维度,激活函数为relu函数;第二隐藏层包括200个节点,1乘以200维度,激活函数为relu函数;输出层包括8个节点,维度为1维度,激活函数为Logistics函数,输出对应的位置概率。
最后,本实施例中采用网格遍历方法对模型中的参数进行学习,其中,网格遍历法包括但不限于Gridsearch方法,主要遍历的指标有:学习率r、训练次数epoch_num、批数量batch_size、终止误差expect_loss等。模型训练终止的条件包括但不限于训练次数达到一定的次数、误差已经到达了某个指标。在进行参数学习时,对各个指标的数值确定包括但不限于以下:学习率r选取了0.01、0.02、0.03等三个维度;训练次数epoch_num,选取了500,1000,2000三个维度;批数量batch_size,选取了100,200,500三个维度;终止误差expect_loss,选取了0.05,0.01,0.5三个维度。通过对不同网络学习方法,我们可以得到了具体参数组合,并通过模型训练,得到不同参数组成的模型组合:{params1,params2,params3,....params n},其中,params n用于表示训练得到的不同的参数。在得到训练参数之后,将这些参数组成的模型组合进行试验,确定试验的准确度,并选取准确度最高的模型作为数据清洗模型。
需要说明的是,本实施例中的数据清洗模型用于生成原地址信息的文本摘要,在该模型的实际应用中,输入的信息是原地址信息,通过数据清洗模型得到原地址信息的文本摘要。
S202:接收待处理的原地址信息。
在本实施例中S202与图1对应的实施例中S101的实现方式完全相同,具体可参考图1对应的实施例中的S101的相关描述,在此不再赘述。
S203:将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要。
对上传的地址清单的地址,进行数据清洗操作,具体操作如下:基于CRF分词模型,对上传的地址进行分词操作,同时去除标点符号,保留词汇列表;在得到词汇列表之后,进行词向量生成,通过数据清洗模型,生成文本摘要内容,其中文本摘要内容中包含了用于表示地址信息的关键词。
S204:通过至少一个所述地图信息网站对所述文本摘要进行搜索,从每个所述地图信息网站中获取所述文本摘要的备选地址信息。
由于不同地址服务商所收藏的兴趣点(Point of Interest,POI)储量不同,本实施例中提出了收录了各个地图供应商作为本实施例中的地图信息网站,将得到的地址文本摘要内容传入每个地图信息网站,进行多地图信息网站的查询,获得各个地图信息网站输出的地址内容列表,将地址内容列表中的每个地址作为备选地址。其中,地址内容列表中的备选地址包括但不限于以下信息:地图供应商、地图提供的兴趣点名称以及与原地址信息对应的详细地址。
S205:统计每个所述备选地址中所包含的关键词。
原地址信息的文本摘要是由全部的关键词信息组成,而通过文本摘要得到的备选地址中可能包含一个或者多个关键词。其中包含的关键词越多,则越能说明该备选地址可以完整无误的表示原地址信息。识别并统计备选地址中所包含的关键词的情况,在本方案中,备选地址中所包含的关键词的情况包括但不限于备选地址中所包含的关键词,也可以是备选地址中所包含的关键词的数量、关键词出现的次数等,此处不做限定。
S206:根据所述每个所述备选地址中所包含的关键词、所述文本摘要中关键词的总个数,计算每个所述备选地址与所述文本摘要的匹配度。
在确定了文本摘要和备选地址之后,文本摘要中可能包含一个或者多个关键词,用于表示地址信息中的关键信息;备选地址可能存在一个或者多个,在这些备选地址中可能存在空地址、不符合规范的地址或者符合规范的地址等,因此,需要根据文本摘要中的关键词和备选地址的信息,确定最合适、最贴近原地址的备选地址,作为目标地址信息。
本方案采取的匹配度是文本摘要中的关键词,以及这些关键词在备选地址中出现的次数,匹配度的计算公式如下:
其中,分子为备选地址中所包含的关键词的个数;分母为文本摘要中关键词的总个数。
除此之外,还可以通过如下公式计算所述备选地址与所述文本摘要的匹配度:
其中,word_1,word_2,...,word_n用于表示每个所述关键词;N用于表示所述文本摘要中的关键词总个数;矩阵Dev_n=(dev_1,dev_2,…,dev_n)用于表示每个类型的关键词的贡献权值;矩阵Word_n=(word_1,word_2,...,word_n)用于表示所述备选地址中所包含的关键词对应的二进制编码,若所述备选地址中包含一个关键词,则对应的值为1,不包含则为0。
具体的,考虑到文本摘要中的每个关键词都代表了不同的含义,而其中的含义可以有不一样的作用,在对地址信息进行识别的时候也能贡献出不同程度的作用。因此,在清洗地址信息得到文本摘要中的关键词的同时,可以识别关键词的类型并预测其贡献程度,根据贡献程度确定不同关键词对应的贡献权值,通过贡献权值衡量该关键词的重要程度,进而可以衡量不同备选地址中的关键词的重要程度,推算各个备选地址的重要程度,进而确定备选地址与文本摘要的匹配度。
S207:识别匹配度最高的备选地址为所述目标地址。
在计算出每个备选地址与文本摘要中的关键词的匹配度之后,选择最大匹配度对应的备选地址为目标地址信息。
进一步的,可以设定一个匹配度阈值,用于衡量匹配度的大小,并筛选出大于或者等于该匹配度阈值时的备选地址来作为目标地址信息,这样得到的目标地址信息就可以有一个或者多个。若存在多个目标地址信息,则可以通过人为确定的方式,选择一个更具主观性的地址。
进一步的,还可以在将最高匹配度的备选地址识别为目标地址信息之后,还可以直接将匹配度最高的目标地址信息推送给用户,提高地址信息的利用率和使用效率。
上述方案,通过基于预设的条件随机场算法模型、预设的注意力模型和预设的文本摘要生成模型,对所述语料库进行训练,得到数据清洗模型;接收待处理的原地址信息;将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;通过至少一个所述地图信息网站对所述文本摘要进行搜索,从每个所述地图信息网站中获取所述文本摘要的备选地址信息;统计每个所述备选地址中所包含的关键词;根据所述每个所述备选地址中所包含的关键词、所述文本摘要中关键词的总个数,计算每个所述备选地址与所述文本摘要的匹配度;识别匹配度最高的备选地址为所述目标地址。通过预先根据语料库中的数据训练出数据清洗模型,得到原地址信息的文本摘要,再将文本摘要中的信息通过多个地图信息网站进行查询得到多个备选地址,再根据备选地址中所包含的关键词的情况计算出备选地址与原地址信息的匹配度,以确定出最能表示原地址信息的备选地址作为目标地址,提高了地址信息规范化过程的效率和精确性。
参见图3,图3是本发明实施例三提供的一种终端设备的示意图。终端设备包括的各单元用于执行图1~图2对应的实施例中的各步骤。具体请参阅图1~图2各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。本实施例的终端设备300包括:
信息接收单元301,用于接收待处理的原地址信息;
数据清洗单元302,用于将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;所述清洗模型为基于预设的语料库进行训练得到;
地址获取单元303,用于将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址;
目标确定单元304,用于根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。
进一步的,所述终端设备可以包括:
模型建立单元,用于基于预设的条件随机场算法模型、预设的注意力模型和预设的文本摘要生成模型,对所述语料库进行训练,得到数据清洗模型;
所述数据清洗模型用于对所述原地址信息进行数据清洗,得到文本摘要;所述文本摘要包括至少一个用于表示所述原地址信息的关键词。
进一步的,所述地址获取单元303可以包括:
地址搜索单元,用于通过至少一个所述地图信息网站对所述文本摘要进行搜索,从每个所述地图信息网站中获取所述文本摘要的备选地址信息;
所述备选地址信息中包括:地图供应商、地图提供的兴趣点名称以及与所述原地址信息对应的详细地址。
进一步的,所述目标确定单元304还可以包括:
关键词统计单元,用于统计每个所述备选地址中所包含的关键词;
匹配度计算单元,用于根据所述每个所述备选地址中所包含的关键词、所述文本摘要中关键词的总个数,计算每个所述备选地址与所述文本摘要的匹配度;
地址识别单元,用于识别匹配度最高的备选地址为所述目标地址。
进一步的,所述匹配度计算单元可以包括:
通过如下公式计算所述备选地址与所述文本摘要的匹配度:
其中,word_1,word_2,...,word_n用于表示每个所述关键词;N用于表示所述文本摘要中的关键词总个数;矩阵Dev_n=(dev_1,dev_2,…,dev_n)用于表示每个类型的关键词的贡献权值;矩阵Word_n=(word_1,word_2,...,word_n)用于表示所述备选地址中所包含的关键词对应的二进制编码,若所述备选地址中包含一个关键词,则对应的值为1,不包含则为0。
上述方案,接收待处理的原地址信息,将原地址信息通过预设的数据清洗模型进行数据,清洗生成原地址信息的文本摘要,将文本摘要输入到预设的地图信息网站中得到备选地址;根据文本摘要和备选地址识别与原地址信息匹配的备选地址为目标地址。通过将获取到的原地址信息进行数据清理得到文本摘要,再将文本摘要通过至少一个地图信息网站得到备选地址,并识别与原地址信息最匹配的备选地址作为目标地址,提高了地址信息规范化过程的效率,实现了地址信息的模板化和统一化。
图4是本发明实施例四提供的终端设备的示意图。如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个地址信息的处理实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示单元301至304的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。
所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card,FC)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种地址信息的处理方法,其特征在于,包括:
接收待处理的原地址信息;
将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;所述清洗模型为基于预设的语料库进行训练得到;
将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址;
根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。
2.如权利要求1所述的地址信息的处理方法,其特征在于,所述将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要之前,还包括:
基于预设的条件随机场算法模型、预设的注意力模型和预设的文本摘要生成模型,对所述语料库进行训练,得到数据清洗模型;
所述数据清洗模型用于对所述原地址信息进行数据清洗,得到文本摘要;所述文本摘要包括至少一个用于表示所述原地址信息的关键词。
3.如权利要求1所述的地址信息的处理方法,其特征在于,所述将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址,包括:
通过至少一个所述地图信息网站对所述文本摘要进行搜索,从每个所述地图信息网站中获取所述文本摘要的备选地址信息;
所述备选地址信息中包括:地图供应商、地图提供的兴趣点名称以及与所述原地址信息对应的详细地址。
4.如权利要求2所述的地址信息的处理方法,其特征在于,所述根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址,包括:
统计每个所述备选地址中所包含的关键词;
根据所述每个所述备选地址中所包含的关键词、所述文本摘要中关键词的总个数,计算每个所述备选地址与所述文本摘要的匹配度;
识别匹配度最高的备选地址为所述目标地址。
5.如权利要求4所述的地址信息的处理方法,其特征在于,所述根据所述每个所述备选地址中所包含的关键词、所述文本摘要中关键词的总个数,计算每个所述备选地址与所述文本摘要的匹配度,包括:
通过公式计算所述备选地址与所述文本摘要的匹配度;其中,word_1,word_2,...,word_n用于表示每个所述关键词;N用于表示所述文本摘要中的关键词总个数;矩阵Dev_n=(dev_1,dev_2,…,dev_n)用于表示每个类型的关键词的贡献权值;矩阵Word_n=(word_1,word_2,...,word_n)用于表示所述备选地址中所包含的关键词对应的二进制编码,若所述备选地址中包含一个关键词,则对应的值为1,不包含则为0。
6.一种终端设备,其特征在于,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如下步骤:
接收待处理的原地址信息;
将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;所述清洗模型为基于预设的语料库进行训练得到;
将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址;
根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。
7.如权利要求6所述的终端设备,其特征在于,所述将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要之前,还包括:
基于预设的条件随机场算法模型、预设的注意力模型和预设的文本摘要生成模型,对所述语料库进行训练,得到数据清洗模型;
所述数据清洗模型用于对所述原地址信息进行数据清洗,得到文本摘要;所述文本摘要包括至少一个用于表示所述原地址信息的关键词。
8.如权利要求6所述的终端设备,其特征在于,所述将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址,包括:
通过至少一个所述地图信息网站对所述文本摘要进行搜索,从每个所述地图信息网站中获取所述文本摘要的备选地址信息;
所述备选地址信息中包括:地图供应商、地图提供的兴趣点名称以及与所述原地址信息对应的详细地址。
9.如权利要求7所述的终端设备,其特征在于,所述根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址,包括:
统计每个所述备选地址中所包含的关键词;
根据所述每个所述备选地址中所包含的关键词、所述文本摘要中关键词的总个数,计算每个所述备选地址与所述文本摘要的匹配度;
识别匹配度最高的备选地址为所述目标地址。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811084954.XA CN109388634B (zh) | 2018-09-18 | 2018-09-18 | 地址信息的处理方法、终端设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811084954.XA CN109388634B (zh) | 2018-09-18 | 2018-09-18 | 地址信息的处理方法、终端设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109388634A true CN109388634A (zh) | 2019-02-26 |
CN109388634B CN109388634B (zh) | 2024-05-03 |
Family
ID=65418629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811084954.XA Active CN109388634B (zh) | 2018-09-18 | 2018-09-18 | 地址信息的处理方法、终端设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109388634B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008282A (zh) * | 2019-03-12 | 2019-07-12 | 平安信托有限责任公司 | 交易数据同步对接方法、装置、计算机设备及存储介质 |
CN110442856A (zh) * | 2019-06-14 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN111210158A (zh) * | 2020-01-14 | 2020-05-29 | 上海钧正网络科技有限公司 | 目标地址确定方法、装置、计算机设备和存储介质 |
CN111522838A (zh) * | 2020-04-23 | 2020-08-11 | 数网金融有限公司 | 地址相似度计算方法及相关装置 |
CN112015888A (zh) * | 2019-05-31 | 2020-12-01 | 百度在线网络技术(北京)有限公司 | 摘要信息提取方法和摘要信息提取系统 |
CN112906394A (zh) * | 2021-03-18 | 2021-06-04 | 北京字节跳动网络技术有限公司 | 地址识别方法、装置、设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN105528372A (zh) * | 2014-09-30 | 2016-04-27 | 华为技术有限公司 | 一种地址搜索方法和设备 |
CN105988988A (zh) * | 2015-02-13 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN106484915A (zh) * | 2016-11-03 | 2017-03-08 | 国家电网公司信息通信分公司 | 一种海量数据的清洗方法和系统 |
WO2017156893A1 (zh) * | 2016-03-18 | 2017-09-21 | 深圳Tcl数字技术有限公司 | 语音控制方法及智能电视 |
CN107767669A (zh) * | 2017-10-24 | 2018-03-06 | 东南大学 | 基于WiFi和蓝牙识别的公交线路客流OD估计方法 |
CN108204816A (zh) * | 2016-12-20 | 2018-06-26 | 北京四维图新科技股份有限公司 | 定位导航的地址精细化处理方法及装置、物流导航系统及终端 |
CN108256013A (zh) * | 2018-01-05 | 2018-07-06 | 佛山市顺德区碧桂园物业发展有限公司 | 基于大数据挖掘技术的投资测算方法 |
-
2018
- 2018-09-18 CN CN201811084954.XA patent/CN109388634B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN105528372A (zh) * | 2014-09-30 | 2016-04-27 | 华为技术有限公司 | 一种地址搜索方法和设备 |
CN105988988A (zh) * | 2015-02-13 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
WO2017156893A1 (zh) * | 2016-03-18 | 2017-09-21 | 深圳Tcl数字技术有限公司 | 语音控制方法及智能电视 |
CN106484915A (zh) * | 2016-11-03 | 2017-03-08 | 国家电网公司信息通信分公司 | 一种海量数据的清洗方法和系统 |
CN108204816A (zh) * | 2016-12-20 | 2018-06-26 | 北京四维图新科技股份有限公司 | 定位导航的地址精细化处理方法及装置、物流导航系统及终端 |
CN107767669A (zh) * | 2017-10-24 | 2018-03-06 | 东南大学 | 基于WiFi和蓝牙识别的公交线路客流OD估计方法 |
CN108256013A (zh) * | 2018-01-05 | 2018-07-06 | 佛山市顺德区碧桂园物业发展有限公司 | 基于大数据挖掘技术的投资测算方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008282A (zh) * | 2019-03-12 | 2019-07-12 | 平安信托有限责任公司 | 交易数据同步对接方法、装置、计算机设备及存储介质 |
CN112015888A (zh) * | 2019-05-31 | 2020-12-01 | 百度在线网络技术(北京)有限公司 | 摘要信息提取方法和摘要信息提取系统 |
CN112015888B (zh) * | 2019-05-31 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 摘要信息提取方法和摘要信息提取系统 |
CN110442856A (zh) * | 2019-06-14 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN110442856B (zh) * | 2019-06-14 | 2023-09-26 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN111210158A (zh) * | 2020-01-14 | 2020-05-29 | 上海钧正网络科技有限公司 | 目标地址确定方法、装置、计算机设备和存储介质 |
CN111210158B (zh) * | 2020-01-14 | 2023-07-18 | 上海钧正网络科技有限公司 | 目标地址确定方法、装置、计算机设备和存储介质 |
CN111522838A (zh) * | 2020-04-23 | 2020-08-11 | 数网金融有限公司 | 地址相似度计算方法及相关装置 |
CN111522838B (zh) * | 2020-04-23 | 2023-07-21 | 数网金融有限公司 | 地址相似度计算方法及装置 |
CN112906394A (zh) * | 2021-03-18 | 2021-06-04 | 北京字节跳动网络技术有限公司 | 地址识别方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109388634B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109388634A (zh) | 地址信息的处理方法、终端设备及计算机可读存储介质 | |
Chow et al. | Estimating optimal feature subsets using efficient estimation of high-dimensional mutual information | |
CN109167816B (zh) | 信息推送方法、装置、设备和存储介质 | |
CN102855309B (zh) | 一种基于用户行为关联分析的信息推荐方法及装置 | |
CN110597804B (zh) | 促进分布式键值存储库上的空间索引 | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN103559252A (zh) | 给游客推荐其很可能会浏览的景点的方法 | |
CN112069276A (zh) | 地址编码方法、装置、计算机设备及计算机可读存储介质 | |
CN110032650B (zh) | 一种训练样本数据的生成方法、装置及电子设备 | |
CN111190968A (zh) | 基于知识图谱的数据预处理和内容推荐方法 | |
CN113554175B (zh) | 一种知识图谱构建方法、装置、可读存储介质及终端设备 | |
US8582554B2 (en) | Similarity searching in large disk-based networks | |
US8650180B2 (en) | Efficient optimization over uncertain data | |
CN110011838B (zh) | 一种动态网络PageRank值的实时跟踪方法 | |
CN111581479A (zh) | 一站式数据处理的方法、装置、存储介质及电子设备 | |
Saad et al. | Efficient skyline computation on uncertain dimensions | |
WO2022068659A1 (zh) | 信息的推送方法、装置和存储介质 | |
CN114565196A (zh) | 基于政务热线的多事件趋势预判方法、装置、设备及介质 | |
Chen et al. | LinkProbe: Probabilistic inference on large-scale social networks | |
CN111753151B (zh) | 一种基于互联网用户行为的服务推荐方法 | |
van Erp et al. | Georeferencing animal specimen datasets | |
Zhu et al. | Top-k reliability search on uncertain graphs | |
CN107316205A (zh) | 识别持卡人属性的方法、装置、计算机可读介质及系统 | |
WO2021000244A1 (en) | Hyperparameter recommendation for machine learning method | |
Rezaeenour et al. | Developing a new hybrid intelligent approach for prediction online news popularity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |