CN108038090B - 一种文本地址的处理方法和装置 - Google Patents

一种文本地址的处理方法和装置 Download PDF

Info

Publication number
CN108038090B
CN108038090B CN201711431611.1A CN201711431611A CN108038090B CN 108038090 B CN108038090 B CN 108038090B CN 201711431611 A CN201711431611 A CN 201711431611A CN 108038090 B CN108038090 B CN 108038090B
Authority
CN
China
Prior art keywords
administrative division
administrative
address
level
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711431611.1A
Other languages
English (en)
Other versions
CN108038090A (zh
Inventor
戴晓波
喻波
王志海
董爱华
安鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN201711431611.1A priority Critical patent/CN108038090B/zh
Publication of CN108038090A publication Critical patent/CN108038090A/zh
Application granted granted Critical
Publication of CN108038090B publication Critical patent/CN108038090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本地址的处理方法和装置,该方法包括:遍历原始文本地址中的字符,在行政区划状态机中查找原始文本地址所包括的多个行政区划;计算每个行政区划的权值;确定多个行政区划中权值最高的目标一级行政区划、属于目标一级行政区划的权值最高的目标二级行政区划、以及属于目标二级行政区划的权值最高的目标三级行政区划;将目标一级行政区划、目标二级行政区划、目标三级行政区划构成的行政区划确定为原始文本地址的标准化行政区划;截取原始文本地址中位于目标三级行政区划之后的字符串;根据预设正则表达式对详细地址进行处理,得到标准化详细地址;将标准化行政区划以及标准化详细地址确定为原始文本地址的标准化地址并输出。

Description

一种文本地址的处理方法和装置
技术领域
本发明涉及通信技术领域,特别是涉及一种文本地址的处理方法和装置。
背景技术
随着互联网技术的发展,基于互联网的应用越来越广泛。在互联网应用中,经常需要用户以文本方式填写一些地址信息,例如家庭住址、公司地址等。将用户对地址信息的文本描述方式简称为文本地址。用户以文本方式填写地址信息时,一般都有自己的描述习惯,且不同用户的描述习惯一般不同,这就导致同一地址信息对应不同的文本地址。例如,对于“一号楼一单元”这样的地址信息,有的用户会描述成“101”,有的用户会描述成“1-01”,有的用户会描述成“一号楼一单元”等,导致同一地址信息出现多种文本地址。
为了便于对地址信息进行管理和应用(例如可以基于地址信息做一些应用挖掘等),需要对文本地址进行归一化处理,即需要将不同描述方式的文本地址处理成统一格式的一个文本地址。
由于文本地址本身存在多样性,对于描述同一地址信息的不同文本地址的文本内容可能差异较大,导致文本地址的归一化结果的准确率较低。
发明内容
本发明提供了一种文本地址的处理方法和装置,以解决现有技术中文本地址的处理方案所存在的归一化处理结果的准确率低的问题。
为了解决上述问题,根据本发明的一个方面,本发明公开了一种文本地址的处理方法,包括:
获取待处理的原始文本地址;
遍历所述原始文本地址中的字符,在预先生成的行政区划状态机中查找所述原始文本地址所包括的多个行政区划;
计算查找得到的每个所述行政区划的权值;
确定多个所述行政区划中权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划;
将所述目标一级行政区划、目标二级行政区划、目标三级行政区划构成的行政区划确定为所述原始文本地址的标准化行政区划;
截取所述原始文本地址中位于所述目标三级行政区划之后的字符串,其中,该字符串为所述原始文本地址的详细地址;
根据预设正则表达式对所述详细地址进行处理,得到标准化详细地址;
将所述标准化行政区划以及所述标准化详细地址确定为所述原始文本地址的标准化地址并输出。
根据本发明的另一方面,本发明还公开了一种文本地址的处理装置,包括:
获取模块,用于获取待处理的原始文本地址;
查找模块,用于遍历所述原始文本地址中的字符,在预先生成的行政区划状态机中查找所述原始文本地址所包括的多个行政区划;
计算模块,用于计算查找得到的每个所述行政区划的权值;
第一确定模块,用于确定多个所述行政区划中权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划;
第二确定模块,用于将所述目标一级行政区划、目标二级行政区划、目标三级行政区划构成的行政区划确定为所述原始文本地址的标准化行政区划;
截取模块,用于截取所述原始文本地址中位于所述目标三级行政区划之后的字符串,其中,该字符串为所述原始文本地址的详细地址;
处理模块,用于根据预设正则表达式对所述详细地址进行处理,得到标准化详细地址;
第三确定模块,用于将所述标准化行政区划以及所述标准化详细地址确定为所述原始文本地址的标准化地址并输出。
与现有技术相比,本发明包括以下优点:
本发明实施例的方法将行政区划信息存储在行政区划状态机中,并利用该行政区划状态机来查找原始文本地址所包括的行政区划,从而可以提升行政区划的查找速度;并分别对查找的不同级别的行政区别计算权值,从而可以找到最优的行政区划,提升了对文本地址的行政区划的查找准确度;此外,利用预设正则表达式来对原始文本地址中的详细地址部分进行标准化处理,从而可以使得详细地址部分也得到归一化处理,使得最终输出的标准化地址不仅行政区划最准确而且详细地址部分格式也统一,提升了文本地址的归一化处理结果的准确率。
附图说明
图1是本发明的一种文本地址的处理方法实施例的步骤流程图;
图2是本发明的一种行政区划状态机的部分示意图;
图3是本发明的一种文本地址的处理装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种文本地址的处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,读取全国行政区划信息,生成行政区划状态机;
其中,中国行政区划分为省、县、乡三级,现行的行政区划实行如下原则:1、全国分为省、自治区、直辖市、特别行政区四种省级行政区;2、省、自治区下辖自治州、县、自治县、县级市;3、自治州分为县、自治县、地级市;4、县、自治县分为乡、民族乡、镇;5、直辖市和设区市分为区、县;6、国家在必要时设立特别行政区。
那么可以依据上述中国现行的行政区划信息来生成状态机,这里称作行政区划状态机。
如图2所示,示出了本发明实施例的行政区划状态机的部分示意图。
该行政区划状态机包括起始状态(start状态)和结束状态(end状态), start状态和end状态之间还可以包括多个状态,从start状态到end状态作为一个完整路径,其表示一个行政区划(即,在所述start状态和所述end状态之间相互连接的多个状态对应一个行政区划,例如图2所示的多个行政区划“成都市”、“成华区”、“通州区”),其中,如图2所示,行政区划状态机中除start状态和end状态之外的每个状态均存储有行政区划的一个汉字,另外,从图2可以看出具有相同汉字的行政区划可以共用一个状态,例如成都市和成华区共用状态“成”。
此外,在本发明实施例的行政区划状态机的多个状态中与end状态连接的目标状态还具有属性信息,该属性信息包括相应行政区划的全称,其中,该全称包括该行政区划的所有上级行政区划的名称以及该行政区划的名称。
如图2所示,例如行政区划“成都市”的与end状态连接的状态“市”的属性信息为“四川省成都市”,即包括该完整路径所表示的“成都市”的名称,还包括该行政区划“成都市”的上级行政区划的名称,即“四川省”;
再例如行政区划“成华区”的与end状态连接的状态“区”的属性信息为“四川省成都市成华区”,即包括该完整路径所表示的“成华区”的名称,还包括该行政区划“成华区”的所有上级行政区划的名称,即“四川省成都市”;
再例如行政区划“通州区”的与end状态连接的状态“区”的属性信息包括两项,一项为“江苏省南通市通州区”,另一项为“北京北京市通州区”。其中,由于各个行政区划中会存在同名的情况,即江苏省南通市有区县“通州区”,而北京市也有区县“通州区”。所以该与end状态连接的目标状态的属性信息可以以数组的方式来存储,从而将“江苏省南通市通州区”和“北京北京市通州区”都作为该“通州区”的状态“区”的属性信息。
其中,如图2所示,本例中将属性信息存储在了目标状态中,以便于读者查看。
其中,在本发明实施例中将全国的省、自治区、直辖市、特别行政区四种省级行政区设为一级行政区划(即,省级);将地级市、地区、自治州、盟四种地级行政区设为二级行政区划(即,市级);将地级市的市辖区、县级市、县、自治县、旗、自治旗、特区、林区,以及直辖市和特别行政区下辖的区、县设为三级行政区划(即,区县级)。
需要注意的是,由于一级行政区划中的直辖市和特别行政区的省级名称和市级名称是相同的,以“北京”为例,省级和市级名称一样都是“北京市”,因此,这里为了区分,如图2所示,将行政区划“北京”作为省级行政区划,将行政区划“北京市”作为市级行政区划,因此,“北京市”对应的属性信息为行政区划“北京市”的全称“北京北京市”,针对其他直辖市以及特别行政区采用类似的处理,这里不再赘述。
步骤102,获取待处理的原始文本地址;
其中,本实施例提供一种文本地址处理方法,可由文本地址处理装置来执行。本实施例提供的方法主要用于对文本地址进行归一化处理。
首先说明,本实施例中的文本地址是指对地址信息的文本描述。不同文本地址可能是对同一地址信息的文本描述。另外,为便于描述和区分,本实施例将归一化之前的文本地址称为原始文本地址,将归一化之后得到的文本地址称为标准化地址。无论是原始文本地址还是标准化地址,都是对地址信息的文本描述。
通常,只有在有归一化需求时,才会对文本地址进行归一化处理。而对文本地址进行归一化处理的需求,通常是针对某个或某些业务系统的。简单来说就是,需要针对某个或某些业务系统,对与之相关的文本地址进行归一化,以便于通过归一化的文本地址进行新的业务或新的业务需求的挖掘,或者进行有关信息的统计分析等。
值得说明的是,本实施例并不对业务系统进行限制,该业务系统可以是各种会涉及到文本地址的业务系统,例如可以是电子商务系统、在线支付系统、即时通讯系统、电子邮件系统等等。
可选地,步骤103,对所述原始文本地址进行预处理操作;
其中,由于网络上的原始文本地址格式不一,描述方式和格式也不同,因此,为了更加准确的从原始文本地址中查找标准化行政区划,因此,这里需要对该原始文本地址进行预处理操作。
其中,所述预处理操作至少包括以下之一:
全角转半角、繁体转简体、删除重复且连续的符号。
举例来说,比如该原始文本地址为“四川省成都市青羊區天府((((((((,,,,,,,)))))))))大道123號軟件園A區”,通过预处理后得到的原始文本地址为“四川省成都市青羊区天府大道123号软件园A区”。
本步骤主要是去掉标准化地址中不应该出现的特殊字符、符号,以及全半角转换;可选地,某些情况下该原始文本地址中还可能存在电话号码、邮件地址等,这些信息也需要在预处理过程中提取出来单独保存,并从该原始文本地址中将电话号码和邮件地址等与通讯地址无关的信息删除。
步骤104,根据所述行政区划状态机,从预处理操作后的原始文本地址中查找标准化行政区划;
具体可以通过如下子步骤S21~S24来实现:
S21,遍历所述原始文本地址中的字符,在所述行政区划状态机中查找所述原始文本地址所包括的多个行政区划;
具体而言,如图2所示,通过遍历该原始文本地址中的每个字符,如果原始文本地址中包括从start状态按照如图2所示的箭头走到目标状态或者 end状态的连续字符串,则说明在该原始文本地址中查找到一个行政区划,例如预处理后的原始文本地址为“北京四川省四川通州区汤立路201号奥区 3号楼1-29层01号”,那么通过遍历该原始文本地址中的每个字符,可以在图2所示的行政区划状态机中,从start状态开始查找,从而可以查找到行政区划“北京”、“四川省”、“通州区”和不完整行政区划“四川”。
S22,计算查找得到的每个所述行政区划的权值;
在执行子步骤S22时,可以通过以下步骤来实现:
针对查找到的多个行政区划对应的多个目标状态,提取每个目标状态的属性信息;
根据每个目标状态的属性信息,确定所述多个行政区划的全称;
针对查找到的多个行政区划中包括所述目标状态的汉字的行政区划,对具有所述全称的该行政区划的权值增加第一预设分数;
针对查找到的多个行政区划中不包括所述目标状态的汉字的不完整行政区划,记为包括所述目标状态的汉字的行政区划,并对具有所述全称的所述行政区划的权值继续增加第二预设分数,其中,所述第二预设分数小于所述第一预设分数;
根据每个目标状态的属性信息,反向推导每个目标状态对应的行政区划的所有上级行政区划。
对反向推导得到的所有上级行政区划的权值增加所述第一预设分数。
具体而言,通过S21,直接查找得到的行政区划包括“北京”、“四川省”、“通州区”、“四川”。
其中,如图2所示,“北京”的目标状态的属性信息为“北京”,即行政区划“北京”的全称就是“北京”;
同理,未示出的“四川省”的目标状态的属性信息为“四川省”,即行政区划“四川省”的全称就是“四川省”;而“四川”的目标状态的属性信息也为“四川省”,即行政区划“四川”的全称也是“四川省”;
“通州区”的目标状态的属性信息包括“江苏省南通市通州区”和“北京北京市通州区”,即行政区划“通州区”的全称包括“江苏省南通市通州区”和“北京北京市通州区”。
如表1所示,具有全称的行政区划包括“北京”、“四川省”、“江苏省南通市通州区”和“北京北京市通州区”。
而查找到的多个行政区划(“北京”、“四川省”、“通州区”和“四川”) 中包括所述目标状态的汉字的行政区划,即完整的行政区划为“北京”、“四川省”和“通州区”,可以对表1中具有全称的这些行政区划即“北京”、“四川省”、“江苏省南通市通州区”和“北京北京市通州区”的权值分别加1。
而对应查找到的多个行政区划(“北京”、“四川省”、“通州区”和“四川”)中不包括所述目标状态的汉字的行政区划,即不完整的行政区划为“四川”,本发明也将其即为行政区划“四川省”,因此,还需要对表1中的具有全称的行政区划“四川省”的权值再加0.8。
其中,包括所述目标状态的汉字的行政区划即为完整的行政区划,因此可以赋予该完整的行政区划相比于不完整的行政区划更高的权值分数,因此,这里该第一预设分数为1,第二预设分数为0.8。
此外,本发明实施例的方法不仅仅会对将查找到的行政区划作为该原始文本地址的行政区划的参考,还会根据查找到的多个行政区划的每个目标状态的属性信息,来反向推导每个目标状态对应的行政区划的所有上级行政区划。例如查找到的多个行政区划(“北京”、“四川省”、“通州区”和“四川”) 中“北京”没有上级行政区划、“四川省”也没有上级行政区划,“四川”由于从属于“四川省”,因此也没有上级形状区划,它们就是一级行政区划。但是“通州区”的属性信息包括“江苏省南通市通州区”和“北京北京市通州区”,因此其上级行政区划包括:江苏省、南通市、北京、北京市。
因此,可以对反推得到的这四个上级行政区划也填充至表1中,并对每个上级行政区划江苏省、南通市、北京、北京市的权值均加1,使得最终表 1中,“北京”的权值为2。
表1
此外,本发明实施例的方法还可以根据所述每个目标状态的属性信息,反向推导每个目标状态对应的行政区划的行政区划级别,例如“北京”没有上级行政区划,因此“北京”为一级行政区划(省级),“四川省”也没有上级行政区划,因此“四川省”为一级行政区划(省级),“通州区”的属性信息包括“江苏省南通市通州区”和“北京北京市通州区”,因此“通州区”的行政区划级别为区县,换句话说,“江苏省南通市通州区”和“北京北京市通州区”均为区县级别。同样的,对于反向推导的上级行政区划“江苏省、南通市、北京市”,通过在行政区划状态机中查看对应该行政区划的目标状态的属性信息,也可以推倒出它们的行政区划级别分别为省级、市级、市级,具体参照表1所示。
S23,确定多个所述行政区划中权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划;
其中,在一个实施例中,在执行子步骤S23时,可以确定多个所述行政区划以及反向推导得到的所有上级行政区划中,权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划,其中,所述多个所述行政区划以及所述反向推导得到的所有上级行政区划之间包括相同的行政区划。
也即,如表1所示,预处理后的原始文本地址涉及的所有行政区划都已示出,其行政区划级别也已示出,因此,可以确定一级行政区划(省级)的行政区划包括“北京”、“四川省”和“江苏省”,其中,“北京”的最终权值为2最高,因此,该原始文本地址的省级行政区划为“北京”;而表1中从属于省级“北京”下的市级(即二级行政区划)的权值最高(为1)的行政区划为“北京市”,因此,该原始文本地址的市级行政区划为“北京市”;而表1中从属于省级“北京”下的市级“北京市”的区县级(即三级行政区划) 的权值最高(为1)的行政区划就是“通州区”,即表1中的“北京北京市通州区”,因此,该原始文本地址的区县级行政区划为“通州区”。
其中,查找得到的所述多个所述行政区划以及所述反向推导得到的所有上级行政区划之间可以包括相同的行政区划,例如表1中的行政区划“北京”。
S24,将所述目标一级行政区划、目标二级行政区划、目标三级行政区划构成的行政区划确定为所述原始文本地址的标准化行政区划;
因此,该预处理后的原始文本地址“北京四川省四川通州区汤立路201 号奥区3号楼1-29层01号”的标准化行政区划为“北京北京市通州区”。
步骤105,对所述预处理操作后的原始文本地址中的详细地址进行标准化;
具体可以通过如下子步骤S31~S32来实现:
S31,截取所述原始文本地址中位于所述目标三级行政区划之后的字符串,其中,该字符串为所述原始文本地址的详细地址;
其中,可以从预处理后的原始文本地址“北京四川省四川通州区汤立路 201号奥区3号楼1-29层01号”中截取位于“通州区”之后的详细地址部分,即“汤立路201号奥区3号楼1-29层01号”。
S32,根据预设正则表达式对所述详细地址进行处理,得到标准化详细地址;
其中,可以处理详细地址中小区号、门牌号为统一形式。
例如通过正则表达式【([0-9a-zA-Z〇零一二三四五六七八九十]{1,3}(([栋棟撞幢\-#])|(号楼)))?([0-9a-zA-Z〇零一二三四五六七八九十]{1,3}((单元)|[组\-]))?([0-9a-zA-Z〇零一二三四五六七八九十]{1,4}[楼层 \-])?[0-9a-zA-Z〇零一二三四五六七八九十]{1,5}[号室]?】,来从详细地址中找出连续包含的楼号、单元号、楼层、门牌号字样的字符串,然后统一转成 xx幢xx单元xx楼xx号。
以详细地址“汤立路201号奥区3号楼1-29层01号”为例,经过上述正则表达式可以找到表1中的下述原单位,然后转换成预设的同一格式,即目标单位,最终标准化详细地址为“汤立路201号奥区3幢1单元29楼01 号”。
数字 原单位 目标单位
3 号楼
1 - 单元
29
01
表2
步骤106,将所述标准化行政区划以及标准化详细地址确定为所述原始文本地址的标准化地址并输出。
最终该原始文本地址“北京四川省四川通州区汤立路201号奥区3号楼 1-29层01号”进行本发明方法处理后得到的标准化地址为“北京北京市通州区汤立路201号奥区3幢1单元29楼01号”并进行输出。
借助于本发明上述实施例的技术方案,只要原始文本地址中包括省级、市级、区县级中任意一个级别的行政区划,本发明实施例的方法就可以借助于行政区划状态机中对应行政区划的目标状态的属性信息来反推该行政区划的所有上级行政区划,从而能够对原始文本地址查找出最准确的行政区划,得到标准化行政区划;另外,当查找到和反推得到的同级别的行政区别为多个时,只需要通过对查找到的和反推到的行政区划的权值进行计算,从而可以将权值最高的省级行政区划来确定为该原始文本地址的省级行政区划,并进一步采用类似的方法确定属于该省级行政区划中权值最高的市级行政区划以及属于该市级行政区划中权值最高的区县级行政区划,从而找到原始文本地址中的最优行政区划,有效的排除无用的行政区划,提升归一化处理结果中行政区划的准确度;此外,还可以通过预设正则表达式来对原始文本地址中的详细地址部分进行标准化处理,从而使得详细地址部分也得到归一化处理,使得最终得到的标准化地址为准确度非常高的归一化地址;此外,本发明实施例的方法利用了状态机,从而可以1秒处理六万条以上的地址数据,提升了对文本地址的处理速度。
本发明实施例的方法将行政区划信息存储在行政区划状态机中,并利用该行政区划状态机来查找原始文本地址所包括的行政区划,从而可以提升行政区划的查找速度;并分别对查找的不同级别的行政区别计算权值,从而可以找到最优的行政区划,提升了对文本地址的行政区划的查找准确度;此外,利用预设正则表达式来对原始文本地址中的详细地址部分进行标准化处理,从而可以使得详细地址部分也得到归一化处理,使得最终输出的标准化地址不仅行政区划最准确而且详细地址部分格式也统一,提升了文本地址的归一化处理结果的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
与上述本发明实施例所提供的方法相对应,参照图3,示出了本发明一种文本地址的处理装置实施例的结构框图,具体可以包括如下模块:
获取模块31,用于获取待处理的原始文本地址;
查找模块32,用于遍历所述原始文本地址中的字符,在预先生成的行政区划状态机中查找所述原始文本地址所包括的多个行政区划;
计算模块33,用于计算查找得到的每个所述行政区划的权值;
第一确定模块34,用于确定多个所述行政区划中权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划;
第二确定模块35,用于将所述目标一级行政区划、目标二级行政区划、目标三级行政区划构成的行政区划确定为所述原始文本地址的标准化行政区划;
截取模块36,用于截取所述原始文本地址中位于所述目标三级行政区划之后的字符串,其中,该字符串为所述原始文本地址的详细地址;
处理模块37,用于根据预设正则表达式对所述详细地址进行处理,得到标准化详细地址;
第三确定模块38,用于将所述标准化行政区划以及所述标准化详细地址确定为所述原始文本地址的标准化地址并输出。
可选地,所述装置还包括:
生成模块,用于读取全国行政区划信息,生成行政区划状态机,其中,所述行政区划状态机中除起始状态和结束状态之外的每个状态均存储行政区划的一个汉字,在所述起始状态和所述结束状态之间相互连接的多个状态对应一个行政区划,其中,所述多个状态中与所述结束状态连接的目标状态具有属性信息,该属性信息包括相应行政区划的全称,其中该全称包括该行政区划的所有上级行政区划的名称以及该行政区划的名称。
可选地,所述计算模块33包括:
提取子模块,用于针对查找到的多个行政区划对应的多个目标状态,提取每个目标状态的属性信息;
第一确定子模块,用于根据所述每个目标状态的属性信息,确定所述多个行政区划的全称;
第一计算子模块,用于针对查找到的多个行政区划中包括所述目标状态的汉字的行政区划,对具有所述全称的该行政区划的权值增加第一预设分数;
第二计算子模块,用于针对查找到的多个行政区划中不包括所述目标状态的汉字的不完整行政区划,记为包括所述目标状态的汉字的行政区划,并对具有所述全称的所述行政区划的权值继续增加第二预设分数,其中,所述第二预设分数小于所述第一预设分数;
推导子模块,用于根据所述每个目标状态的属性信息,反向推导每个目标状态对应的行政区划的所有上级行政区划。
第三计算子模块,用于对反向推导得到的所有上级行政区划的权值增加所述第一预设分数。
可选地,所述第一确定模块34包括:
第二确定子模块,用于确定多个所述行政区划以及反向推导得到的所有上级行政区划中,权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划,其中,所述多个所述行政区划以及所述反向推导得到的所有上级行政区划之间包括相同的行政区划。
可选地,所述装置还包括:
预处理模块,用于对所述原始文本地址进行预处理操作;
其中,所述预处理操作至少包括以下之一:
全角转半角、繁体转简体、删除重复且连续的符号。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种文本地址的处理方法和一种文本地址的处理装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种文本地址的处理方法,其特征在于,所述方法包括:
获取待处理的原始文本地址;
遍历所述原始文本地址中的字符,在预先生成的行政区划状态机中查找所述原始文本地址所包括的多个行政区划;
计算查找得到的每个所述行政区划的权值;其中,所述计算查找得到的每个所述行政区划的权值,包括:针对查找到的多个行政区划对应的多个目标状态,提取每个目标状态的属性信息;
根据所述每个目标状态的属性信息,确定所述多个行政区划的全称;
针对查找到的多个行政区划中包括所述目标状态的汉字的行政区划,对具有所述全称的该行政区划的权值增加第一预设分数;
针对查找到的多个行政区划中不包括所述目标状态的汉字的不完整行政区划,记为包括所述目标状态的汉字的行政区划,并对具有所述全称的所述行政区划的权值继续增加第二预设分数,其中,所述第二预设分数小于所述第一预设分数;
根据所述每个目标状态的属性信息,反向推导每个目标状态对应的行政区划的所有上级行政区划;
对反向推导得到的所有上级行政区划的权值增加所述第一预设分数;
确定多个所述行政区划中权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划;
将所述目标一级行政区划、目标二级行政区划、目标三级行政区划构成的行政区划确定为所述原始文本地址的标准化行政区划;
截取所述原始文本地址中位于所述目标三级行政区划之后的字符串,其中,该字符串为所述原始文本地址的详细地址;
根据预设正则表达式对所述详细地址进行处理,得到标准化详细地址;
将所述标准化行政区划以及所述标准化详细地址确定为所述原始文本地址的标准化地址并输出。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理的原始文本地址之前,所述方法还包括:
读取全国行政区划信息,生成行政区划状态机,其中,所述行政区划状态机中除起始状态和结束状态之外的每个状态均存储行政区划的一个汉字,在所述起始状态和所述结束状态之间相互连接的多个状态对应一个行政区划,其中,所述多个状态中与所述结束状态连接的目标状态具有属性信息,该属性信息包括相应行政区划的全称,其中该全称包括该行政区划的所有上级行政区划的名称以及该行政区划的名称。
3.根据权利要求1所述的方法,其特征在于,所述确定多个所述行政区划中权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划,包括:
确定多个所述行政区划以及反向推导得到的所有上级行政区划中,权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划,其中,所述多个所述行政区划以及所述反向推导得到的所有上级行政区划之间包括相同的行政区划。
4.根据权利要求1所述的方法,其特征在于,所述遍历所述原始文本地址中的字符,在预先生成的行政区划状态机中查找所述原始文本地址所包括的多个连续字符串之前,所述方法还包括:
对所述原始文本地址进行预处理操作;
其中,所述预处理操作至少包括以下之一:
全角转半角、繁体转简体、删除重复且连续的符号。
5.一种文本地址的处理装置,其特征在于,包括:
获取模块,用于获取待处理的原始文本地址;
查找模块,用于遍历所述原始文本地址中的字符,在预先生成的行政区划状态机中查找所述原始文本地址所包括的多个行政区划;
计算模块,用于计算查找得到的每个所述行政区划的权值;其中,所述计算模块包括:
提取子模块,用于针对查找到的多个行政区划对应的多个目标状态,提取每个目标状态的属性信息;
第一确定子模块,用于根据所述每个目标状态的属性信息,确定所述多个行政区划的全称;
第一计算子模块,用于针对查找到的多个行政区划中包括所述目标状态的汉字的行政区划,对具有所述全称的该行政区划的权值增加第一预设分数;
第二计算子模块,用于针对查找到的多个行政区划中不包括所述目标状态的汉字的不完整行政区划,记为包括所述目标状态的汉字的行政区划,并对具有所述全称的所述行政区划的权值继续增加第二预设分数,其中,所述第二预设分数小于所述第一预设分数;
推导子模块,用于根据所述每个目标状态的属性信息,反向推导每个目标状态对应的行政区划的所有上级行政区划;
第三计算子模块,用于对反向推导得到的所有上级行政区划的权值增加所述第一预设分数;
第一确定模块,用于确定多个所述行政区划中权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划;
第二确定模块,用于将所述目标一级行政区划、目标二级行政区划、目标三级行政区划构成的行政区划确定为所述原始文本地址的标准化行政区划;
截取模块,用于截取所述原始文本地址中位于所述目标三级行政区划之后的字符串,其中,该字符串为所述原始文本地址的详细地址;
处理模块,用于根据预设正则表达式对所述详细地址进行处理,得到标准化详细地址;
第三确定模块,用于将所述标准化行政区划以及所述标准化详细地址确定为所述原始文本地址的标准化地址并输出。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
生成模块,用于读取全国行政区划信息,生成行政区划状态机,其中,所述行政区划状态机中除起始状态和结束状态之外的每个状态均存储行政区划的一个汉字,在所述起始状态和所述结束状态之间相互连接的多个状态对应一个行政区划,其中,所述多个状态中与所述结束状态连接的目标状态具有属性信息,该属性信息包括相应行政区划的全称,其中该全称包括该行政区划的所有上级行政区划的名称以及该行政区划的名称。
7.根据权利要求5所述的装置,其特征在于,所述第一确定模块包括:
第二确定子模块,用于确定多个所述行政区划以及反向推导得到的所有上级行政区划中,权值最高的目标一级行政区划、属于所述目标一级行政区划的权值最高的目标二级行政区划、以及属于所述目标二级行政区划的权值最高的目标三级行政区划,其中,所述多个所述行政区划以及所述反向推导得到的所有上级行政区划之间包括相同的行政区划。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
预处理模块,用于对所述原始文本地址进行预处理操作;
其中,所述预处理操作至少包括以下之一:
全角转半角、繁体转简体、删除重复且连续的符号。
CN201711431611.1A 2017-12-26 2017-12-26 一种文本地址的处理方法和装置 Active CN108038090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711431611.1A CN108038090B (zh) 2017-12-26 2017-12-26 一种文本地址的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711431611.1A CN108038090B (zh) 2017-12-26 2017-12-26 一种文本地址的处理方法和装置

Publications (2)

Publication Number Publication Date
CN108038090A CN108038090A (zh) 2018-05-15
CN108038090B true CN108038090B (zh) 2019-01-25

Family

ID=62101409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711431611.1A Active CN108038090B (zh) 2017-12-26 2017-12-26 一种文本地址的处理方法和装置

Country Status (1)

Country Link
CN (1) CN108038090B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359174B (zh) * 2018-09-03 2019-08-20 杭州数梦工场科技有限公司 行政区划归属识别方法、装置、存储介质及计算机设备
CN109635807A (zh) * 2018-10-16 2019-04-16 深圳壹账通智能科技有限公司 信息录入方法、装置、设备及计算机可读存储介质
CN109885788A (zh) * 2018-12-14 2019-06-14 平安万家医疗投资管理有限责任公司 一种级联式选择的显示方法和装置、以及计算机设备
CN110795472A (zh) * 2019-11-11 2020-02-14 集奥聚合(北京)人工智能科技有限公司 基于模糊匹配的地址标准化方法、系统、设备及介质
CN111680500B (zh) * 2020-06-10 2023-07-14 深圳前海微众银行股份有限公司 地址识别方法、装置、设备与计算机可读存储介质
CN113656450A (zh) * 2021-07-12 2021-11-16 大箴(杭州)科技有限公司 地址处理方法及装置、电子设备、存储介质
CN114218957B (zh) * 2022-02-22 2022-11-18 阿里巴巴(中国)有限公司 行政区划变迁信息的确定方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469372A (zh) * 2015-08-14 2017-03-01 阿里巴巴集团控股有限公司 一种地址映射方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393937A (zh) * 2011-10-12 2012-03-28 深圳市络道科技有限公司 一种基于反向生成的地址树的地址匹配方法及匹配系统
CN103559177A (zh) * 2013-11-12 2014-02-05 金蝶软件(中国)有限公司 一种地名识别方法及装置
CN104679801B (zh) * 2013-12-03 2019-02-12 高德软件有限公司 一种兴趣点搜索方法和装置
CN105022748B (zh) * 2014-04-28 2019-05-07 高德软件有限公司 一种运单地址分级方法及装置
CN104021184B (zh) * 2014-06-10 2017-07-11 广州品唯软件有限公司 一种定位方法与系统
CN104537062A (zh) * 2014-12-29 2015-04-22 北京牡丹电子集团有限责任公司数字电视技术中心 一种地址信息抽取方法及系统
CN104657486B (zh) * 2015-03-02 2018-01-19 武汉工程大学 一种基于多因子的行政区划的可信度计算的方法
CN106202028B (zh) * 2015-04-30 2019-10-11 阿里巴巴集团控股有限公司 一种地址信息识别方法及装置
CN106269528B (zh) * 2015-05-20 2018-12-21 菜鸟智能物流控股有限公司 提供地址分拣信息的方法及装置
CN105630764B (zh) * 2015-12-22 2019-04-02 百度在线网络技术(北京)有限公司 有限状态机的地址解析方法及装置
CN105677700B (zh) * 2015-12-23 2018-12-14 武汉工程大学 一种基于集合运算的中文地址行政区划解析方法
CN106959961A (zh) * 2016-01-11 2017-07-18 阿里巴巴集团控股有限公司 一种地址识别方法及装置
CN106875264A (zh) * 2017-03-31 2017-06-20 北京京东尚科信息技术有限公司 订单信息管理方法、装置和订单分拣系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469372A (zh) * 2015-08-14 2017-03-01 阿里巴巴集团控股有限公司 一种地址映射方法及装置

Also Published As

Publication number Publication date
CN108038090A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
CN108038090B (zh) 一种文本地址的处理方法和装置
US8812536B2 (en) Providing regional content by matching geographical properties
CN103049440B (zh) 一种相关文章的推荐处理方法和处理系统
CN101313300B (zh) 本地搜索
CN104809117B (zh) 视频数据聚合处理方法、聚合系统及视频搜索平台
CN103955505B (zh) 一种基于微博的事件实时监测方法及系统
CN102253972B (zh) 基于网络爬虫的地名数据库维护方法
CN103440311A (zh) 一种地名实体识别的方法及系统
CN104679801A (zh) 一种兴趣点搜索方法和装置
CN102955833A (zh) 一种通讯地址识别、标准化的方法
WO2015070788A1 (zh) 一种识别ip地址的区域归属地信息的方法和装置
CN103607496A (zh) 一种推断手机用户兴趣爱好的方法、装置及手机终端
CN106844786A (zh) 一种基于文本相似度的舆情地域热点发现方法
CN102955832A (zh) 一种通讯地址识别、标准化的系统
CN104424302A (zh) 一种同类数据对象的匹配方法和装置
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN112256821B (zh) 中文地址补全的方法、装置、设备及存储介质
CN102959539B (zh) 一种业务交叉时的项目推荐方法及系统
CN101676901A (zh) 搜索调度方法及搜索服务器
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
CN106294861A (zh) 面向大规模数据的情报系统中文本聚合及展现方法及系统
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索系统及方法
CN103076894A (zh) 一种用于根据对象标识信息构建输入词条的方法与设备
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN106779080A (zh) 一种人物信息知识库自动构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant