CN109815498A - 一种中文地址标准化方法、装置及电子设备 - Google Patents
一种中文地址标准化方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109815498A CN109815498A CN201910073229.0A CN201910073229A CN109815498A CN 109815498 A CN109815498 A CN 109815498A CN 201910073229 A CN201910073229 A CN 201910073229A CN 109815498 A CN109815498 A CN 109815498A
- Authority
- CN
- China
- Prior art keywords
- address
- content
- normalized
- list
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000005498 polishing Methods 0.000 claims abstract description 17
- 230000015654 memory Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 7
- 238000011430 maximum method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 3
- 230000005055 memory storage Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013316 zoning Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种中文地址标准化方法、装置及电子设备,根据预设分词数据库对源地址进行分词;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对第一列表进行匹配,且根据对第一列表的匹配结果,对第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将待标准化地址输入预设的Trie树,以根据Trie树判断待标准化地址是否符合预设规范,对不符合预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合预设规范的待标准化地址进行补齐后生成标准化地址以供输出。本发明的中文地址标准化方法、装置及电子设备可以准确且高效的将文字信息中包含的源地址解析为标准地址,提升地址信息管理的效果。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种中文地址标准化方法、装置及电子设备。
背景技术
在信息技术领域,经常出现中文地址,例如收发快递,各类机构的申请表格,房屋买卖租赁信息等,作为标识客户的重要字段之一,地址信息的重要性不言而喻。但由于地址信息来源过广,地址信息收集的规范不统一,填写方式各异,填写人习惯不同等原因,导致中文地址经常存在不规范、缺失甚至矛盾的信息,使得一切基于地址信息方面的业务操作都存在较大障碍,给国家和社会带来诸多管理困难,并且对公司来说,在提供各种服务时,如收发快递、精准地域营销、风险管控等,需要投入大量的人力和时间解决地址不规范问题。
所以我们需要有一种高效通用的办法来对各种来源的地址进行标准化处理,从而为各个领域所应用,比如,公安地址信息的快速比对或匹配、收发快递时错误地址的及时提醒和自动纠错,不同级别地域维度的地址反欺诈监控警报等。标准化处理后的地址信息可以帮助我们快速返回与此地址相关的多维度详细信息分析集合。不同级别标准化的地址所支持的应用场景范围不同,标准化程度越高所适用的业务应用场景越多。
由于较之英文地址,中文地址有一定的独特性,所以在对中文地址标准化的处理方法尚待深入发掘,现需要一种更加完整高效的技术方法,可以有效减少地址解析的人力投入,提高地址解析的准确性和效率。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种中文地址标准化方法、装置及电子设备,用于解决现有技术中不能准确且高效的将文字信息中包含的源地址解析为标准地址的问题。
为实现上述目的及其他相关目的,本发明提供一种中文地址标准化方法,包括:接收源地址信息;根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的地址词、单个字和/或单个符号;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。
于本发明一具体实施例中,所述标准化地址至少包括省级、市级、县级以及镇级。
于本发明一具体实施例中,根据所述预设分词数据库,按照逐级正向最大匹配规则对所述源地址进行分词。
于本发明一具体实施例中,所述分词数据库包括地址字典,所述地址字典包括省级内容、市级内容、县级内容和镇级内容,且分别赋予所述省级内容、市级内容、县级内容和镇级内容的词频权重,且根据所述词频权重,对所述源地址进行分词。
于本发明一具体实施例中,所述省级内容的词频权重大于所述市级内容的词频权重,所述市级内容的词频权重大于所述县级内容的词频权重,所述县级内容的词频权重大于所述镇级内容的词频权重。
于本发明一具体实施例中,所述分级数据库包括根据国家行政级别划分的分级字典,该分级字典包括省级、市级、县级以及镇级。
于本发明一具体实施例中,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址的步骤还包括,根据所述分级字典对所述第一列表进行地址匹配,并根据该匹配结果,去除无效字符,且根据所述分级字典的省级、市级、县级以及镇级的内容对第二列表的内容进行映射、切断或拼接,以将分词后的源地址信息规整为具有省级、市级、县级和/或镇级的待标准化地址。
于本发明一具体实施例中,所述词包括多个字,只对所述分词结果中的词,根据所述分级字典进行匹配。
于本发明一具体实施例中,根据所述Trie树判断所述待标准化地址是否符合预设规范的步骤还包括:当所述待标准化地址中包括对应省级和市级的内容时,且判断所述省级和市级对应的内容矛盾时,判断所述待标准化地址不符合预设规范;当所述待标准化地址中的对应省级或市级的内容缺失时,对所述待标准化地址中的省级或市级的内容进行补齐,以生成所述标准化地。
为实现上述目的及其他相关目的,本发明还提供一种中文地址标准化装置,包括:源地址接收模块,用以接收源地址信息;分词模块,用以根据预设分词数据库对所述源地址进行分词;双列表规整模块,用以复制分词结果以获得内容匹配的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;Tire树处理模块,用以将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。
为实现上述目的及其他相关目的,本发明还提供一种电子设备,包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如上任一项所述的中文地址标准化方法。
如上所述,本发明的中文地址标准化方法、装置及电子设备,根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的地址词、单个字和/或单个符号;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。本发明的中文地址标准化方法、装置及电子设备可以准确且高效的将文字信息中包含的源地址解析为标准地址,在市场营销、客户管理和风险控制等细分领域可以获取更为精准的地址信息,可以按省、市、县、镇进行更为精准的划分,提升地址信息管理的效果,为具体业务提供有效支撑。
附图说明
图1显示为本发明的中文地址标准化方法在一具体实施例中的流程示意图
图2显示为本发明的中文地址标准化装置在一具体实施例中的组成示意图。
图3显示为本发明的一具体实施例中的Trie树的部分结构示意图。
图4显示为本发明的电子设备在一具体实施例中的组成示意图。
元件标号说明
10 中文地址标准化装置
11 源地址接收模块
12 分词模块
13 双列表规整模块
14 Tire树处理模块
20 电子设备
21 处理器
22 存储器
S11~S14 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,显示为本发明的中文地址标准化方法在一具体实施例中的流程示意图。所述中文地址标准化方法,包括:
S11:接收源地址信息;
S12:根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的地址词、单个字和/或单个符号;且为确保本专利发明效果,该分词方法需严格按照专用地址字典进行精确分词,不能采用模糊匹配或最大条件概率匹配等方式进行分词。所述专用地址字典泛指可以由外界导入的地址字典,可以由多年的人民日报语料训练,也可以根据国家统计局中的区划信息进行训练得到。所述专用地址字典可根据省、市、县、镇的重要性,赋予词频权重,依据正向最大匹配规则可以得到更为准确的分词结果。
S13:复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;
S14:将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息(方便后续优化和进一步处理)或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。其中,输出的所述标准化地址至少包括省级、市级、县级以及镇级。该预设规范可为提前训练得到的Trie树。在一些实施例中,可依据国家统计局中的区划信息建立Trie树,且所述Trie树主要用于存储国家统计局的区划信息,如果区划有变更,这里需在Trie树存储变更前和变更后的信息,整个Trie树为分级存储的数据结构,可提供快速查找和遍历功能。
在一些实施例中,根据所述预设分词数据库,按照逐级正向最大匹配规则对所述源地址进行分词。其中,所述正向最大匹配规则主要指,按照源地址信息的顺序进行最大匹配,因为正常的中文地址信息一般按照行政区划由高到低排列,采用正向最大匹配可以尽可能提取到高级别行政区划信息。
其中,所述分词数据库包括地址字典,所述地址字典包括省级内容、市级内容、县级内容和镇级内容。且分别赋予所述省级内容、市级内容、县级内容和镇级内容的词频权重,且根据所述词频权重,对所述源地址进行分词。该地址字典可以为从外界导入的地址字典,也可以对由多年的人民日报语料和/或国家统计局中的区划信息组成的训练数据进行训练后得到。在另一些实施例中,该地址字典中还可包括村级和组级的内容。
在一些实施例中,所述省级内容的词频权重大于所述市级内容的词频权重,所述市级内容的词频权重大于所述县级内容的词频权重,所述县级内容的词频权重大于所述镇级内容的词频权重。即在对一个源地址按照逐级正向最大匹配规则进行匹配时,按照现有的书写习惯,对该源地址从左到右的顺序进行匹配,且在匹配到省级内容时,才开始对市级内容进行匹配,或者该源地址中不存在省级内容时,开启对所述市级内容的匹配;且在匹配到市级内容或者该源地址中不存在市级内容时,才开启所述县级内容的匹配;且在匹配到县级内容或者该源地址中不存在县级内容时,才开启所述镇级内容的匹配。
在一些实施例中,所述分级数据库包括根据国家行政级别划分的分级字典,该分级字典包括省级、市级、县级以及镇级。
在一些实施例中,根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址的步骤还包括,根据所述分级字典对所述第一列表进行地址匹配,并根据该匹配结果,去除无效字符,且根据所述分级字典的省级、市级、县级以及镇级的内容对第二列表的内容进行映射、切断或拼接,以将分词后的源地址信息规整为具有省级、市级、县级和/或镇级的待标准化地址。该待标准化地址还可包括位于所述镇级之后的后缀。例如,当分词结果中包括对应省级的名称“安徽”时,根据该分级字典,将“安徽”这个词映射为完整的“安徽省”,且对处于镇级之后的文字,合并为一条信息。所述无效字符不能匹配到所述分级字典。该无效字符例如可设置为包括乱码、分隔符或数字等非中文的字符。在匹配时只考虑多字组成的词才进行匹配。
所述专用分级字典泛指根据国家行政级别进行划分的字典,一般为省、市、县、镇四级结构,其中直辖市的市区按常规处理可以划为市,也可按国家统计局的规则划为县,不影响最终处理精度。
在一些实施例中,根据所述Trie树判断所述待标准化地址是否符合预设规范的步骤还包括:当所述待标准化地址中包括对应省级和市级的内容时,且判断所述省级和市级对应的内容矛盾时,判断所述待标准化地址不符合预设规范;当所述待标准化地址中的对应省级或市级的内容缺失时,对所述待标准化地址中的省级或市级的内容进行补齐,以生成所述标准化地。
进一步的,所述专用地址字典泛指可以由外界导入的地址字典,也可以由多年的人民日报语料训练,或根据国家统计局中的区划信息进行训练得到。如国家统计局中的区划信息,可以取省、市、县、镇四级地址信息,将其经统计制作为专用地址字典、专用分级字典和Trie树。
在一些实施例中,Trie树主要用于存储国家统计局的区划信息,在训练时通过国家统计局的四级区划信息,对Trie树进行插入操作,做插入操作时不判断时效性和冲突性,即同一个区域可能隶属于不同的大区域,甚至不同的行政级别。这样操作的逻辑合理性在于国家统计局的区划信息都是真实有效的,隶属或行政级别本身就代表了某个时刻的真实区划,整个Trie树为分级存储的数据结构,可提供快速查找和遍历功能。
具体的,Trie树除插入操作外,还将实现查询、判断冲突、补齐行政区划的功能,其中查询操作可以判断一个地址的完整性;判断冲突可以判断一个地址的在历史上是否存在真实有效,对于无效地址可以给出标签;补齐行政区划可以对缺失的省、市、县、镇信息尽可能进行补充。
具体的,Trie树对行政区划中的市级“市辖区”、“省直辖县级行政区划”和“自治区直辖县级行政区划”进行特殊处理,为保证信息量最少损失和符合用户常规习惯,最终输出在分级地址中存储这些信息,而在最终输出中删除这些字段。
本发明的中文地址标准化方法充分考虑源地址信息的分级特性、隶属关系等特性,根据这些特征来进行有效调整,争取更好的中文地址标准化效果。
参阅图2,显示为本发明的中文地址标准化装置在一具体实施例中的组成示意图。所述中文地址标准化装置10,包括:源地址接收模块11、分词模块12、双列表规整模块13以及Tire树处理模块14。
所述源地址接收模块11用以接收源地址信息;
所述分词模块12用以根据预设分词数据库对所述源地址进行分词;
所述双列表规整模块13用以复制分词结果以获得内容匹配的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;
所述Tire树处理模块14用以将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。
所述中文地址标准化装置10为与所述中文地址标准化方法对应的装置项,两者技术方案一一对应,所有关于所述中文地址标准化方法的描述均可应用于本实施例中。
以下结合具体实例,对本发明的中文地址标准化装置10的技术方案做进一步的说明:
在本实施例中,所述源地址接收模块11接收输入的源地址,该源地址为“安徽&省定远县朱湾镇宋岗村卢庄组39号”。
所述分词模块12根据专用的地址字典,将该源地址进行分词,分词结果包括关于源地址的地址词、单个字和/或单个符号,本实施例中的分词结果例如为“'安徽','&','省','定远县','朱湾镇','宋','岗','村','卢','庄','组','39','号'”。其中,根据地址字典里的省级内容、市级内容、县级内容以及镇级内容,依照该源地址的从左到有的文字排列顺序,依次识别到该源地址中包括“安徽”、“定远县”以及“朱湾镇”,且对于之后的文字,以单个字的形式进行保存,且对于该源地址中的符号,也以单个符号进行保存,例如该源地址中出现了地址中常见的分隔符“.”,也有无效符号“&”。
分词模块12输出的专用地址词和单个字组成的列表,将作为双列表规整模块13的输入,双列表规整模块将复制产生两个列表,第一个列表采用逐词遍历的方式寻找与专用分级地址字典匹配的词,同时删除乱码、分隔符、数字等非中文字符,在匹配时只考虑多字组成的词才进行匹配;第二个列表将记录匹配的词,并直接对列表进行切片,第一个列表遍历完成后可直接得到省、市、县、镇以及后缀的形式。所述双列表规整模块13将“'安徽','&','省','定远县','朱湾镇','宋','岗','村','卢','庄','组','39','号'”复制两次,得到两个列表,分别是第一列表和第二列表。第一列表逐词(从左到右)匹配专用的分级字典,第一列表第一次匹配到安徽,然后映射为安徽省,同时第二列表从'&'开始切片;第一列表第二次未匹配到地级市;第一列表第三次匹配到定远县,同时第二列表从'朱湾镇'开始切片;第一列表第四次匹配到朱湾镇,同时第二列表从'宋'开始切片;最后将第二列表拼接在一起,得到最终输出的待标准化地址:“'安徽省',,'定远县','朱湾镇','宋岗村卢庄组39号'”。
所述Tire树处理模块14可先根据数据信息(例如为国家统计局的区划信息)生成Trie树,即由省、市、县、镇生成标准的Trie树结构,该Trie树结构的一部分例如为如图3所示。Tire树处理模块14将双列表规整模块13的规整结果“'安徽省',,'定远县','朱湾镇','宋岗村卢庄组39号'”作为Trie树的输入,先判断省市是否存在冲突,因为本实施例中,地级市不存在,不存在冲突;然后进行行政区划补齐,第一步判断省级存在,第二步判断市级不存在,需要进行补齐,先锁定省级为安徽省,遍历安徽省所有地级市,查询该地级市是否有定远县,查询到滁州市,将'滁州市'补齐至地级市,第三步判断县级存在,第四步判断镇级存在,整个Trie树补齐结束,输出标准化地址:“'安徽省','滁州市','定远县','朱湾镇','宋岗村卢庄组39号'”。
参阅图4,图4显示为本发明的电子设备在一具体实施例中的组成示意图。所述电子设备20例如为台式电脑、笔记本电脑、智能手机或智能手表等具有智能数据处理能力的设备。所述电子设备20包括处理器21和存储器22,所述存储器22用于存储计算机程序,所述处理器21用于执行所述存储器22存储的计算机程序,以使所述电子设备20执行中文地址标准化方法,所述中文地址标准化方法参阅图1和关于图1的相关描述。
所述存储器22可包括高速随机存取存储器,并且还可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。在某些实施例中,存储器22还可以包括远离一个或多个处理器21的存储器22,例如经由RF电路或外部端口以及通信网络访问的网络附加存储器,其中所述通信网络可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等,或其适当组合。存储器控制器可控制设备的诸如CPU和外设接口之类的其他组件对存储器22的访问。
所述处理器21可操作地与存储器22和/或非易失性存储设备耦接。更具体地,处理器21可执行在存储器22和/或非易失性存储设备中存储的指令以在计算设备中执行操作,诸如生成图像数据和/或将图像数据传输到电子显示器。如此,处理器21可包括一个或多个通用微处理器、一个或多个专用处理器(ASIC)、一个或多个现场可编程逻辑阵列(FPGA)、或它们的任何组合。
综上所述,本发明的中文地址标准化方法、装置及电子设备,根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的地址词、单个字和/或单个符号;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。本发明的中文地址标准化方法、装置及电子设备可以准确且高效的将文字信息中包含的源地址解析为标准地址,在市场营销、客户管理和风险控制等细分领域可以获取更为精准的地址信息,可以按省、市、县、镇进行更为精准的划分,提升地址信息管理的效果,为具体业务提供有效支撑。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (11)
1.一种中文地址标准化方法,其特征在于,包括:
接收源地址信息;
根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的词、单个字和/或单个符号;
复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;
将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。
2.根据权利要求1所述的中文地址标准化方法,其特征在于,所述标准化地址至少包括省级内容、市级内容、县级内容以及镇级内容。
3.根据权利要求1所述的中文地址标准化方法,其特征在于,根据所述预设分词数据库,按照逐级正向最大匹配规则对所述源地址进行分词。
4.根据权利要求3所述的中文地址标准化方法,其特征在于,所述分词数据库包括地址字典,所述地址字典包括省级内容、市级内容、县级内容和镇级内容,且分别赋予所述省级内容、市级内容、县级内容和镇级内容的词频权重,且根据所述词频权重,对所述源地址进行分词。
5.根据权利要求4所述的中文地址标准化方法,其特征在于,所述省级内容的词频权重大于所述市级内容的词频权重,所述市级内容的词频权重大于所述县级内容的词频权重,所述县级内容的词频权重大于所述镇级内容的词频权重。
6.根据权利要求1所述的中文地址标准化方法,其特征在于,所述分级数据库包括根据国家行政级别划分的分级字典,该分级字典包括省级、市级、县级以及镇级。
7.根据权利要求6所述的中文地址标准化方法,其特征在于,根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址的步骤还包括,根据所述分级字典对所述第一列表进行地址匹配,并根据该匹配结果,去除无效字符,且根据所述分级字典的省级、市级、县级以及镇级的内容对第二列表的内容进行映射、切断或拼接,以将分词后的源地址信息规整为具有省级、市级、县级和/或镇级的待标准化地址。
8.根据权利要求7所述的中文地址标准化方法,其特征在于,所述词包括多个字,只对所述分词结果中的词,根据所述分级字典进行匹配。
9.根据权利要求1所述的中文地址标准化方法,其特征在于,根据所述Trie树判断所述待标准化地址是否符合预设规范的步骤还包括:当所述待标准化地址中包括对应省级和市级的内容时,且判断所述省级和市级对应的内容矛盾时,判断所述待标准化地址不符合预设规范;当所述待标准化地址中的对应省级或市级的内容缺失时,对所述待标准化地址中的省级或市级的内容进行补齐,以生成所述标准化地。
10.一种中文地址标准化装置,其特征在于,包括:
源地址接收模块,用以接收源地址信息;
分词模块,用以根据预设分词数据库对所述源地址进行分词;
双列表规整模块,用以复制分词结果以获得内容匹配的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;
Tire树处理模块,用以将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。
11.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至9中任一项所述的中文地址标准化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910073229.0A CN109815498A (zh) | 2019-01-25 | 2019-01-25 | 一种中文地址标准化方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910073229.0A CN109815498A (zh) | 2019-01-25 | 2019-01-25 | 一种中文地址标准化方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815498A true CN109815498A (zh) | 2019-05-28 |
Family
ID=66605105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910073229.0A Pending CN109815498A (zh) | 2019-01-25 | 2019-01-25 | 一种中文地址标准化方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815498A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193843A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种基于ac自动机和后缀表达式的字符串筛选方法及装置 |
CN110275940A (zh) * | 2019-06-11 | 2019-09-24 | 北京贝壳时代网络科技有限公司 | 一种中文地址识别方法及设备 |
CN110362646A (zh) * | 2019-07-17 | 2019-10-22 | 秒针信息技术有限公司 | 地址信息的处理方法及装置、存储介质和电子装置 |
CN110442856A (zh) * | 2019-06-14 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN110688851A (zh) * | 2019-09-26 | 2020-01-14 | 税友软件集团股份有限公司 | 一种提取地址文本的关键信息的方法、装置及介质 |
CN110851559A (zh) * | 2019-10-14 | 2020-02-28 | 中科曙光南京研究院有限公司 | 数据元自动识别方法和识别系统 |
CN111159973A (zh) * | 2019-12-13 | 2020-05-15 | 中关村科技软件股份有限公司 | 一种中文地址的行政区划补齐及标准化方法 |
CN111159974A (zh) * | 2019-12-30 | 2020-05-15 | 北京明略软件系统有限公司 | 地址信息的标准化方法、装置、存储介质及电子设备 |
CN111325603A (zh) * | 2020-02-14 | 2020-06-23 | 上海东普信息科技有限公司 | 基于快递面单的一段码管理方法、装置、设备及存储介质 |
CN111625732A (zh) * | 2020-05-25 | 2020-09-04 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN111767722A (zh) * | 2019-06-20 | 2020-10-13 | 北京京东尚科信息技术有限公司 | 一种分词方法和装置 |
CN111881680A (zh) * | 2020-08-04 | 2020-11-03 | 医渡云(北京)技术有限公司 | 文本的标准化处理方法、装置、电子设备及计算机介质 |
CN111914557A (zh) * | 2020-07-31 | 2020-11-10 | 上海燕汐软件信息科技有限公司 | 地址解析方法、装置、设备及计算机可读存储介质 |
CN112115214A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN112256821A (zh) * | 2020-09-23 | 2021-01-22 | 北京捷通华声科技股份有限公司 | 中文地址补全的方法、装置、设备及存储介质 |
CN112380858A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于政务大数据的地址补全和纠正方法 |
CN112417179A (zh) * | 2020-11-23 | 2021-02-26 | 杭州橙鹰数据技术有限公司 | 地址处理方法及装置 |
CN113569569A (zh) * | 2021-08-02 | 2021-10-29 | 新智认知数据服务有限公司 | 案发地址提取方法、电子设备及计算机可读存储介质 |
CN113704574A (zh) * | 2021-08-27 | 2021-11-26 | 北京市律典通科技有限公司 | 地址标准化的方法及装置 |
CN114661688A (zh) * | 2022-03-25 | 2022-06-24 | 马上消费金融股份有限公司 | 地址纠错方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536476B1 (en) * | 2002-12-20 | 2009-05-19 | Cisco Technology, Inc. | Method for performing tree based ACL lookups |
CN106055650A (zh) * | 2016-05-31 | 2016-10-26 | 深圳市永兴元科技有限公司 | 地址标准化方法和装置 |
CN108959244A (zh) * | 2018-06-07 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 地址分词的方法和装置 |
CN109033225A (zh) * | 2018-06-29 | 2018-12-18 | 福州大学 | 中文地址识别系统 |
-
2019
- 2019-01-25 CN CN201910073229.0A patent/CN109815498A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536476B1 (en) * | 2002-12-20 | 2009-05-19 | Cisco Technology, Inc. | Method for performing tree based ACL lookups |
CN106055650A (zh) * | 2016-05-31 | 2016-10-26 | 深圳市永兴元科技有限公司 | 地址标准化方法和装置 |
CN108959244A (zh) * | 2018-06-07 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 地址分词的方法和装置 |
CN109033225A (zh) * | 2018-06-29 | 2018-12-18 | 福州大学 | 中文地址识别系统 |
Non-Patent Citations (1)
Title |
---|
李晓林等: "非规范化中文地址的行政区划提取算法", 《计算机应用》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193843A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种基于ac自动机和后缀表达式的字符串筛选方法及装置 |
CN110275940A (zh) * | 2019-06-11 | 2019-09-24 | 北京贝壳时代网络科技有限公司 | 一种中文地址识别方法及设备 |
CN110442856A (zh) * | 2019-06-14 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN110442856B (zh) * | 2019-06-14 | 2023-09-26 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN111767722A (zh) * | 2019-06-20 | 2020-10-13 | 北京京东尚科信息技术有限公司 | 一种分词方法和装置 |
CN112115214B (zh) * | 2019-06-20 | 2024-04-02 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN112115214A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN110362646A (zh) * | 2019-07-17 | 2019-10-22 | 秒针信息技术有限公司 | 地址信息的处理方法及装置、存储介质和电子装置 |
CN110688851A (zh) * | 2019-09-26 | 2020-01-14 | 税友软件集团股份有限公司 | 一种提取地址文本的关键信息的方法、装置及介质 |
CN110851559A (zh) * | 2019-10-14 | 2020-02-28 | 中科曙光南京研究院有限公司 | 数据元自动识别方法和识别系统 |
CN110851559B (zh) * | 2019-10-14 | 2020-10-09 | 中科曙光南京研究院有限公司 | 数据元自动识别方法和识别系统 |
CN111159973B (zh) * | 2019-12-13 | 2023-06-02 | 中关村科技软件股份有限公司 | 一种中文地址的行政区划补齐及标准化方法 |
CN111159973A (zh) * | 2019-12-13 | 2020-05-15 | 中关村科技软件股份有限公司 | 一种中文地址的行政区划补齐及标准化方法 |
CN111159974A (zh) * | 2019-12-30 | 2020-05-15 | 北京明略软件系统有限公司 | 地址信息的标准化方法、装置、存储介质及电子设备 |
CN111325603A (zh) * | 2020-02-14 | 2020-06-23 | 上海东普信息科技有限公司 | 基于快递面单的一段码管理方法、装置、设备及存储介质 |
CN111625732A (zh) * | 2020-05-25 | 2020-09-04 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN111625732B (zh) * | 2020-05-25 | 2023-06-23 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN111914557A (zh) * | 2020-07-31 | 2020-11-10 | 上海燕汐软件信息科技有限公司 | 地址解析方法、装置、设备及计算机可读存储介质 |
CN111881680A (zh) * | 2020-08-04 | 2020-11-03 | 医渡云(北京)技术有限公司 | 文本的标准化处理方法、装置、电子设备及计算机介质 |
CN112256821A (zh) * | 2020-09-23 | 2021-01-22 | 北京捷通华声科技股份有限公司 | 中文地址补全的方法、装置、设备及存储介质 |
CN112256821B (zh) * | 2020-09-23 | 2024-05-17 | 北京捷通华声科技股份有限公司 | 中文地址补全的方法、装置、设备及存储介质 |
CN112380858A (zh) * | 2020-11-12 | 2021-02-19 | 中国科学技术大学智慧城市研究院(芜湖) | 基于政务大数据的地址补全和纠正方法 |
CN112417179A (zh) * | 2020-11-23 | 2021-02-26 | 杭州橙鹰数据技术有限公司 | 地址处理方法及装置 |
CN113569569A (zh) * | 2021-08-02 | 2021-10-29 | 新智认知数据服务有限公司 | 案发地址提取方法、电子设备及计算机可读存储介质 |
CN113704574A (zh) * | 2021-08-27 | 2021-11-26 | 北京市律典通科技有限公司 | 地址标准化的方法及装置 |
CN113704574B (zh) * | 2021-08-27 | 2024-02-09 | 北京市律典通科技有限公司 | 地址标准化的方法及装置 |
CN114661688A (zh) * | 2022-03-25 | 2022-06-24 | 马上消费金融股份有限公司 | 地址纠错方法及装置 |
CN114661688B (zh) * | 2022-03-25 | 2023-09-19 | 马上消费金融股份有限公司 | 地址纠错方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815498A (zh) | 一种中文地址标准化方法、装置及电子设备 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN105893349B (zh) | 类目标签匹配映射方法及装置 | |
US20180232443A1 (en) | Intelligent matching system with ontology-aided relation extraction | |
CN108460136A (zh) | 电力运维信息知识图谱构建方法 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN104375992A (zh) | 一种地址匹配的方法和装置 | |
CN104516910A (zh) | 在客户端服务器环境中推荐内容 | |
CN105022748A (zh) | 一种运单地址分级方法及装置 | |
CN106650783A (zh) | 用于移动终端数据分类、生成、匹配的方法、装置及系统 | |
CN107633022A (zh) | 人员画像分析方法、装置及存储介质 | |
CN109947952A (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
CN113033198B (zh) | 相似文本推送方法、装置、电子设备及计算机存储介质 | |
CN116501898B (zh) | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN115858513A (zh) | 数据治理方法、装置、计算机设备和存储介质 | |
CN114461761A (zh) | 基于标签匹配的搜索方法、系统、计算机设备及存储介质 | |
CN112363996B (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN105787004A (zh) | 一种文本分类方法及装置 | |
CN109902148B (zh) | 一种通讯录联系人的企业名称自动补全的方法 | |
CN112069824A (zh) | 基于上下文概率和引证的地域识别方法、装置及介质 | |
CN112199488A (zh) | 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 | |
CN104573098B (zh) | 基于Spark系统的大规模对象识别方法 | |
CN113590792A (zh) | 用户问题的处理方法、装置和服务器 | |
Naghipour et al. | Identification of the requirements for designing medical tourism information system of Iran |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190528 |