CN112417812A - 地址标准化方法、系统及电子设备 - Google Patents
地址标准化方法、系统及电子设备 Download PDFInfo
- Publication number
- CN112417812A CN112417812A CN202011349668.9A CN202011349668A CN112417812A CN 112417812 A CN112417812 A CN 112417812A CN 202011349668 A CN202011349668 A CN 202011349668A CN 112417812 A CN112417812 A CN 112417812A
- Authority
- CN
- China
- Prior art keywords
- address
- word
- character string
- chinese
- standard address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011425 standardization method Methods 0.000 title claims abstract description 11
- 238000012937 correction Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 239000002245 particle Substances 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 3
- 241001672694 Citrus reticulata Species 0.000 claims description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 23
- 239000010931 gold Substances 0.000 description 23
- 229910052737 gold Inorganic materials 0.000 description 23
- 210000001320 hippocampus Anatomy 0.000 description 9
- 229910003460 diamond Inorganic materials 0.000 description 7
- 239000010432 diamond Substances 0.000 description 7
- 241001408929 Galatella linosyris Species 0.000 description 3
- 241000490229 Eucephalus Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 241000519325 Symphyotrichum tradescantii Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- -1 road 398 Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种地址标准化方法、系统及电子设备,本发明将待标准化地址字符串转为拼音字符组,与纠错词集合匹配,得到相应的中文词集合,在关键词集合中查询中文词集合中的各中文词,形成关键中文词集合,中文词数量记为size_cn_keys,对关键中文词集合中的每个中文词进行召回操作,形成第一集合,统计第一集合中的每个标准地址字符串包含中文词集合中不重复中文词的数量size_in,将满足size_in/size_cn_keys≧阈值的相应标准地址字符串加入第二集合,若第二集合中size_in/size_cn_keys的最大值的标准地址字符串只有一条且该最大值为1时,则该标准地址字符串即为待标准化的地址字符串的标准地址,否则,通过相似度匹配,得到待标准化的地址字符串的标准地址。本发明可以准确并且快速地实现地址标准化。
Description
技术领域
本发明属于文本及自然语言处理技术领域,尤其涉及一种地址标准化方法、系统及电子设备。
背景技术
随着互联网的兴起与大数据的井喷式的发展,在数据挖掘和自然语言等相关处理相关任务中,大量无结构化的数据且富含大量的信息都得不到有效的加工利用,其中地址数据的工业意义最为突出,不管是物流电商场景还是数字城市场景都依赖这类数据,地址的无结构化表现的形式多种多样,可以分为两大类,第一类为书写录入没有遵循规范;第二类为不同部门的地址标准定义不一致。
故需要对已经存在的老的无结构化或者非标准地址进行清洗转化,同时,为了实现在用户新输入地址数据时,能瞬间纠正非标准地址以实现标准地址的录入,有必要提供一种地址标准化方法。
发明内容
基于此,针对上述技术问题,提供一种地址标准化方法、系统及电子设备。
为解决上述技术问题,本发明采用如下技术方案:
一方面,本发明提供一种地址标准化方法,包括:
S101、根据预先收集的标准地址字符串集合,构建专业词集合;
S102、构建纠错词集合:对所述专业词集合中的每个中文词进行拼音化,建立拼音字符组与中文词的对应关系;
S103、将所述专业词集合的停用词删除,形成关键词集合;
S104、根据所述关键词集合构建倒排索引,所述倒排索引的存储格式为key和value,所述key为所述关键词集合的词,所述value为所述标准地址集合中包含key的标准地址字符串以及对该标准地址字符串进行2-gram分解后的数组;
S105、构建2-gram语言模型:对所述标准地址字符串集合中的各标准地址字符串进行2-gram分解,计算各分解词的词频;
S106、接收待标准化的地址字符串;
S107、将所述待标准化的地址字符串转换为拼音字符组;
S108、将所述拼音字符组与所述纠错词集合进行匹配,得到相应的中文词集合;
S109、在所述关键词集合中查询所述中文词集合中的各中文词,保留查询到的中文词,形成关键中文词集合,该集合中中文词的数量记为size_cn_keys;
S110、对所述关键中文词集合中的每个中文词进行召回操作:将每个中文词与所述倒排索引的key进行匹配,取出对应的value,取出的各value中的标准地址字符串形成第一集合;
S111、统计所述第一集合中的每个标准地址字符串包含所述中文词集合中不重复中文词的数量,记为size_in;
S112、将满足size_in/size_cn_keys≧阈值的相应标准地址字符串加入第二集合,若所述第二集合中size_in/size_cn_keys的最大值的标准地址字符串只有一条且该最大值为1时,则所述标准地址字符串即为待标准化的地址字符串的标准地址,否则,执行步骤S113,0.5<阈值<1;
S113、通过相似度匹配,得到所述待标准化的地址字符串的标准地址:
对所述中文词集合中的中文词进行拼接,得到多个拼接字符串;
根据所述2-gram语言模型中各分解词的词频,计算所述多个拼接字符串的频率,将频率最高的拼接字符串作为所述待标准化的地址字符串的等价地址字符串;
将所述等价地址字符串与所述第一集合中的标准地址字符串进行相似度匹配,匹配度最高的标准地址字符串即为待标准化的地址字符串的标准地址。
另一方面,本发明提供一种地址标准化系统,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行上述的一种地址标准化方法。
再一方面,本发明提供一种电子设备,该设备具有上述的一种地址标准化系统。
本发明可以准确并且快速地实现地址标准化。
附图说明
下面结合附图和具体实施方式本发明进行详细说明:
图1为本发明的流程图。
具体实施方式
如图1所示,本说明书实施例提供一种地址标准化方法,包括:
S101、根据预先收集的标准地址字符串集合,构建专业词集合,具体过程如下:
对标准地址字符串集进行词典收集,得到专有名词。词典收集是指收集专有地名的名词,比如上海市、浦东区、金海路或者新奥广场等等。
将专有名词加入到分词器进行全模式分词,识别出大颗粒以及小颗粒的词,如专有名词:北京清华大学,分词后为:北京清华清华大学华大大学。其中,清华大学是大颗粒,小颗粒的有北京、清华、华大、大学。
对识别出的词进行筛选、纠正(筛选错误词,进行纠正,无法纠正则删除),得到专业词集合。
S102、构建纠错词集合:对专业词集合中的每个中文词进行拼音化,建立拼音字符组与中文词的对应关系。
每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组。考虑到词可能对应出错的拼音(如方言拼音),多个拼音字符可以对应同一个词,考虑到同音的情况,则会出现一个拼音字符对应多个中文的情况,这种情况,只需要把多个中文词当成一个数组。
S103、将专业词集合的停用词删除,形成关键词集合。
具体地,需要先构建停用词集合,过程如下:
1、借助地址的层次结构,将专业词集合中的父级词加入停用词集合,比如一级(省),二级(地级市),三级(区/县)等。
2、将专业词集合中词频高的词加入停用词集合:词频term-frequency的计算,需要事先对标准地址字符串进行去重复操作,把完全一样的地址字符串删除,然后计算term-frequency,把其中term-frequency值相对较大的词也加到停用词表中。
3、根据停用词集合,将专业词集合的停用词删除,形成关键词集合。
专业词表中的停用词会影响性能:当一个词作为搜索对象,搜索包含此词的字符串时,如果搜索到的结果比较多,那么还需要对搜索结果进行二次搜索,这样就非常耗时,最坏情况是,搜索结果返回集合的全部字符串,这种搜索的执行,毫无意义,因为它相当于从全量集合中直接取全部内容,但是它比直接取还要多一步搜索。
为了尽可能多的收集停用词,以提升后期的运行速度,本实施例还可以以标准地址字符串的字符作为分界线,将分界线前的词加入停用词集合,分界线如"市/镇/路"等。
S104、根据关键词集合构建倒排索引,所述倒排索引的存储格式为key和value,所述key为所述关键词集合的词,所述value为所述标准地址集合中包含key的标准地址字符串以及对该标准地址字符串进行2-gram分解后的数组。
如key:金肖苑,Value:[浦东新区金钻路398弄金肖苑506室,[浦东,东新,新区,区金,金钻,钻路,路398,398弄,弄金,金肖,肖苑,苑506,506室]]。
S105、构建2-gram语言模型:对所述标准地址字符串集合中的各标准地址字符串进行2-gram分解,计算各分解词的词频。
S106、接收待标准化的地址字符串。
S107、将待标准化的地址字符串转换为拼音字符组。
S108、将拼音字符组与纠错词集合进行匹配,得到相应的中文词集合。
本步骤通过纠错词集合就可以解决词级别的纠错任务,而传统的方式需要利用分词器进行分词,原始文本中的错误会给分词器引入噪音导致分词结果特别差,分词器通常根据上下文的字与先验的词表进行分词,而地名词的上下文是毫无意义的词,这会让分词器无能为力从而分词错误。
S109、在关键词集合中查询所述中文词集合中的各中文词,保留查询到的中文词,形成关键中文词集合,该集合中中文词的数量记为size_cn_keys。
S110、对关键中文词集合中的每个中文词进行召回操作:将每个中文词与所述倒排索引的key进行匹配,取出对应的value,取出的各value中的标准地址字符串形成第一集合。
S111、统计第一集合中的每个标准地址字符串包含中文词集合中不重复中文词的数量,记为size_in,然后按照size_in由大到小的顺序,对第一集合中的每个标准地址字符串进行排序,使size_in大的标准地址字符串排在前面,从而提高后续步骤的效率。
S112、将满足size_in/size_cn_keys≧阈值的相应标准地址字符串加入第二集合,若第二集合中size_in/size_cn_keys的最大值的标准地址字符串只有一条且该最大值为1时,则标准地址字符串即为待标准化的地址字符串的标准地址,否则,执行步骤S113,0.5<阈值<1。
其中,阈值为经验值,可以在上述范围内自行选择,推荐使用较大的值,在本实施例中,阈值为0.6。
S113、通过相似度匹配,得到待标准化的地址字符串的标准地址:
1、对中文词集合中的中文词进行拼接,得到多个拼接字符串。
2、根据2-gram语言模型中各分解词的词频,计算多个拼接字符串的频率,将频率最高的拼接字符串作为待标准化的地址字符串的等价地址字符串。
3、将等价地址字符串与第一集合中的标准地址字符串进行相似度匹配,匹配度最高的标准地址字符串即为待标准化的地址字符串的标准地址。
使用等价地址字符串的目的是因为待标准化的地址字符串中可能会存在不可预知并且比较严重的错误,无法和第二集合中的标准地址字符串进行相似度匹配。
在本实施例中,采用基于2-gram化的方法计算相似度,当然也可以使用其它的相似度计算方法,比如编辑距离。
下面对步骤106-112进行举例说明:
假设接收到待标准化的地址字符串为上海高桥镇海高二村,纠错词集合中有:
shanghai:上海,
haigao:海高,
ercun:二村,
Haigaoercun:海高二村,
gaoqiaozhen:高桥镇。
上海高桥镇海高二村转换为拼音字符组为:[shanghai,haigao,ercun,Haigaoercun,gaoqiaozhen],将拼音字符组与纠错词集合进行匹配,得到相应的中文词集合为[上海,海高,海高二村,高桥镇,二村],
在关键词集合中查询中文词集合中的各中文词,保留查询到的中文词,形成关键中文词集合[海高,海高二村,高桥镇,二村],该集合的size_cn_keys为4。
通过召回操作,将关键中文词集合中的每个中文词与倒排索引的key进行匹配,取出对应的value,取出的各value中的标准地址字符串形成第一集合:
各value如下:
{海高:[上海市浦东区高桥镇花山路100号海高二村,[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇花,花山,山路,路100,100号,号海,海高,高二,二村],上海市浦东区高桥镇海高路200号金色宾馆,[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇海,海高,高路,路200,200号,号金,金色,色宾,宾馆]],[上海市浦东区高桥镇花山路103号海高一村,[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇花,花山,山路,路100,100号,号海,海高,高一,一村]]}
{海高二村:[上海市浦东区高桥镇花山路100号海高二村,[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇花,花山,山路,路100,100号,号海,海高,高二,二村]]}
{高桥镇:[上海市浦东区高桥镇花山路100号海高二村,[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇花,花山,山路,路100,100号,号海,海高,高二,二村]],[上海市浦东区高桥镇海高路200号金色宾馆,[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇海,海高,高路,路200,200号,号金,金色,色宾,宾馆]],[上海市浦东区高桥镇花山路103号海高一村,[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇花,花山,山路,路103,103号,号海,海高,高一,一村]],[上海市浦东区高桥镇海高路200号金色宾馆],[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇海,海高,高路,路200,200号,号金,金色,色宾,宾馆]],[上海市浦东区高桥镇学前街1弄学前二村,[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇学,街1,1弄,弄学,学前,前二,二村]]}
{二村:[上海市浦东区高桥镇花山路100号海高二村,[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇花,花山,山路,路100,100号,号海,海高,高二,二村],[上海市浦东区高桥镇学前街1弄学前二村,[上海,海市,市浦,浦东,东区,区高,高桥,桥镇,镇学,街1,1弄,弄学,学前,前二,二村]]]}。
形成第一集合:
“上海市浦东区高桥镇花山路100号海高二村”,对应size_in为4。
“上海市浦东区高桥镇花山路100号海高一村”,对应size_in为2。
“上海市浦东区高桥镇学前街1弄学前二村”,对应size_in为2。
“上海市浦东区高桥镇海高路200号金色宾馆”,对应size_in为2。
由于size_cn_keys为4,故满足size_in/size_cn_keys≧0.6的标准地址字符串为“上海市浦东区高桥镇花山路100号海高二村”,该字符串加入第二集合,并且由于该字符串满足size_in/size_cn_keys=1,故“上海市浦东区高桥镇花山路100号海高二村”即为上海高桥镇海高二村的标准地址。
下面对步骤S113进行举例说明:
假设待标准化的地址字符串为浦东新区金赞路398弄金肖苑506室,得到的中文词集合为[[金钻,锦錾],金钻路,398弄,金肖苑,506室],经过顺序拼接,得到4个拼接字符串:
金钻金钻路398弄金肖苑506室,
锦錾金钻路398弄金肖苑506室,
金钻路398弄金肖苑506室,
锦錾路398弄金肖苑506室。
根据2-gram语言模型中各分解词的词频,计算4个拼接字符串的频率:
P1=P(金钻)*P(钻金)*P(金钻)*P(钻路)*P(路398)*P(398弄)*P(弄金)*P(金肖)*P(肖苑)*P(苑506)*P(506室),
P2=P(锦錾)*P(錾金)*P(金钻)*P(钻路)*P(路398)*P(398弄)*P(弄金)*P(金肖)*P(肖苑)*P(苑506)*P(506室),
P3=P(金钻)*P(钻路)*P(路398)*P(398弄)*P(弄金)*P(金肖)*P(肖苑)*P(苑506)*P(506室),
P4=P(锦錾)*P(錾路)*P(路398)*P(398弄)*P(弄金)*P(金肖)*P(肖苑)*P(苑506)*P(506室)。
从p1-p4中选一个最大的值,这里选P3。
所以P3对应的字符串'金钻路398金肖苑506'为待标准化的地址字符串的等价地址字符串S1。
下面采用2-gram化方法进行相似度匹配,假设S2为第一集合中的一条记录,S2为[上海市浦东新区金钻路398弄金肖苑10栋506室,[上海,海市,市浦,浦东,东新,新区,区海,海鹏,鹏路,路1056,1056弄,弄金,金肖,肖苑,苑15,15号,号506,506室]]。
对等价地址字符串S1进行2-gram分解,分解成[金钻,钻路,路398,398弄,弄金,金肖,肖苑,苑506,506室]。
对S1和S2经过2-gram分解后数组的元素进行合并、去重得到Corpus:上海,海市,市浦,浦东,东新,新区,区金,金钻,钻路,路398,398弄,区海,海鹏,鹏路,路1056,1056弄,弄金,金肖,肖苑,苑506,苑15,15号,号506,506室。
用corpus里面的词按顺序分别与S1和S2的数组中的词进行对比,如果corpus里面的词出现在S1或S2的数组中,则表示为1,反之,则表示为0,以此类推进行one-hot编码:
S1:000111111110000011110001,S2:111111000001111111101111。
接着利用Jaacard、cosin等公式,计算向量的相似度。
重复上述过程,计算等价地址字符串S1与每一个S2的相似度,最后选择得分最高的s2为最终的标准地址。
基于同一发明构思,本说明书实施例还提供一种地址标准化系统,包括存储模块,存储模块包括由处理器加载并执行的指令(程序代码),指令在被执行时使处理器执行本说明书上述一种地址标准化方法部分中描述的根据本发明各种示例性实施方式的步骤。
其中,存储模块可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元(ROM)。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
基于同一发明构思,本说明书实施例还提供一种电子设备,该电子设备具有本说明书上述的一种地址标准化系统,此处不再具体赘述。
但是,本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。
Claims (10)
1.一种地址标准化方法,其特征在于,包括:
S101、根据预先收集的标准地址字符串集合,构建专业词集合;
S102、构建纠错词集合:对所述专业词集合中的每个中文词进行拼音化,建立拼音字符组与中文词的对应关系;
S103、将所述专业词集合的停用词删除,形成关键词集合;
S104、根据所述关键词集合构建倒排索引,所述倒排索引的存储格式为key和value,所述key为所述关键词集合的词,所述value为所述标准地址集合中包含key的标准地址字符串以及对该标准地址字符串进行2-gram分解后的数组;
S105、构建2-gram语言模型:对所述标准地址字符串集合中的各标准地址字符串进行2-gram分解,计算各分解词的词频;
S106、接收待标准化的地址字符串;
S107、将所述待标准化的地址字符串转换为拼音字符组;
S108、将所述拼音字符组与所述纠错词集合进行匹配,得到相应的中文词集合;
S109、在所述关键词集合中查询所述中文词集合中的各中文词,保留查询到的中文词,形成关键中文词集合,该集合中中文词的数量记为size_cn_keys;
S110、对所述关键中文词集合中的每个中文词进行召回操作:将每个中文词与所述倒排索引的key进行匹配,取出对应的value,取出的各value中的标准地址字符串形成第一集合;
S111、统计所述第一集合中的每个标准地址字符串包含所述中文词集合中不重复中文词的数量,记为size_in;
S112、将满足size_in/size_cn_keys≧阈值的相应标准地址字符串加入第二集合,若所述第二集合中size_in/size_cn_keys的最大值的标准地址字符串只有一条且该最大值为1时,则所述标准地址字符串即为待标准化的地址字符串的标准地址,否则,执行步骤S113,0.5<阈值<1;
S113、通过相似度匹配,得到所述待标准化的地址字符串的标准地址:
对所述中文词集合中的中文词进行拼接,得到多个拼接字符串;
根据所述2-gram语言模型中各分解词的词频,计算所述多个拼接字符串的频率,将频率最高的拼接字符串作为所述待标准化的地址字符串的等价地址字符串;
将所述等价地址字符串与所述第一集合中的标准地址字符串进行相似度匹配,匹配度最高的标准地址字符串即为待标准化的地址字符串的标准地址。
2.根据权利要求1所述的一种地址标准化方法,其特征在于,所述步骤S101进一步包括:
对所述标准地址字符串集进行词典收集,得到专有名词;
将专有名词加入到分词器进行全模式分词,识别出大颗粒以及小颗粒的词;
对识别出的词进行筛选、纠正,得到专业词集合。
3.根据权利要求2所述的一种地址标准化方法,其特征在于,所述步骤S102进一步包括:每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组。
4.根据权利要求3所述的一种地址标准化方法,其特征在于,所述步骤S103进一步包括构建停用词集合:
将专业词集合中的父级词加入停用词集合;
将专业词集合中词频高的词加入停用词集合;
根据所述停用词集合,将所述专业词集合的停用词删除,形成关键词集合。
5.根据权利要求4所述的一种地址标准化方法,其特征在于,所述构建停用词集合还包括:以所述标准地址字符串的字符作为分界线,将所述分界线前的词加入停用词集合。
6.根据权利要求5所述的一种地址标准化方法,其特征在于,所述步骤S111还包括:按照size_in由大到小的顺序,对第一集合中的每个标准地址字符串进行排序。
7.根据权利要求1或6所述的一种地址标准化方法,其特征在于,所述阈值为0.6。
8.根据权利要求7所述的一种地址标准化方法,其特征在于,所述相似度匹配采用2-gram化方法。
9.一种地址标准化系统,其特征在于,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行根据权利要求1-8任一项所述的一种地址标准化方法。
10.一种电子设备,其特征在于,具有根据权利要求9所述的一种地址标准化系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011349668.9A CN112417812B (zh) | 2020-11-26 | 2020-11-26 | 地址标准化方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011349668.9A CN112417812B (zh) | 2020-11-26 | 2020-11-26 | 地址标准化方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417812A true CN112417812A (zh) | 2021-02-26 |
CN112417812B CN112417812B (zh) | 2024-05-17 |
Family
ID=74842104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011349668.9A Active CN112417812B (zh) | 2020-11-26 | 2020-11-26 | 地址标准化方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417812B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618867A (zh) * | 2022-10-27 | 2023-01-17 | 中科星图数字地球合肥有限公司 | 地址纠错方法、装置、计算机设备和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393544A (zh) * | 2008-10-07 | 2009-03-25 | 南京师范大学 | 面向地址编码的中文地址语义解析方法 |
CN101482862A (zh) * | 2009-01-20 | 2009-07-15 | 上海邮政科学研究院 | 一种英文信件地址的中文自动批译方法 |
CN101576888A (zh) * | 2008-05-07 | 2009-11-11 | 香港理工大学 | 中文信息检索中基于结构约束的索引词权重计算方法 |
CN101729668A (zh) * | 2009-11-27 | 2010-06-09 | 深圳市戴文科技有限公司 | 一种信息处理方法、装置及移动通信终端 |
CN102043775A (zh) * | 2009-10-16 | 2011-05-04 | 湖南大学 | 一种用于信息检索的任意大小n-gram频率统计方法及其装置 |
CN103136190A (zh) * | 2007-12-06 | 2013-06-05 | 谷歌公司 | Cjk姓名检测 |
CN105068989A (zh) * | 2015-07-23 | 2015-11-18 | 中国测绘科学研究院 | 地名地址提取方法及装置 |
CN105808615A (zh) * | 2014-12-31 | 2016-07-27 | 北京奇虎科技有限公司 | 一种基于分词权重的文档索引生成方法和装置 |
CN106528526A (zh) * | 2016-10-09 | 2017-03-22 | 武汉工程大学 | 一种基于贝叶斯分词算法的中文地址语义标注方法 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN108510523A (zh) * | 2018-03-16 | 2018-09-07 | 新智认知数据服务有限公司 | 一种建立获取目标物特征的模型和目标物搜索方法及装置 |
CN109033086A (zh) * | 2018-08-03 | 2018-12-18 | 银联数据服务有限公司 | 一种地址解析、匹配的方法及装置 |
-
2020
- 2020-11-26 CN CN202011349668.9A patent/CN112417812B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136190A (zh) * | 2007-12-06 | 2013-06-05 | 谷歌公司 | Cjk姓名检测 |
CN101576888A (zh) * | 2008-05-07 | 2009-11-11 | 香港理工大学 | 中文信息检索中基于结构约束的索引词权重计算方法 |
CN101393544A (zh) * | 2008-10-07 | 2009-03-25 | 南京师范大学 | 面向地址编码的中文地址语义解析方法 |
CN101482862A (zh) * | 2009-01-20 | 2009-07-15 | 上海邮政科学研究院 | 一种英文信件地址的中文自动批译方法 |
CN102043775A (zh) * | 2009-10-16 | 2011-05-04 | 湖南大学 | 一种用于信息检索的任意大小n-gram频率统计方法及其装置 |
CN101729668A (zh) * | 2009-11-27 | 2010-06-09 | 深圳市戴文科技有限公司 | 一种信息处理方法、装置及移动通信终端 |
CN105808615A (zh) * | 2014-12-31 | 2016-07-27 | 北京奇虎科技有限公司 | 一种基于分词权重的文档索引生成方法和装置 |
CN105068989A (zh) * | 2015-07-23 | 2015-11-18 | 中国测绘科学研究院 | 地名地址提取方法及装置 |
CN106528526A (zh) * | 2016-10-09 | 2017-03-22 | 武汉工程大学 | 一种基于贝叶斯分词算法的中文地址语义标注方法 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN108510523A (zh) * | 2018-03-16 | 2018-09-07 | 新智认知数据服务有限公司 | 一种建立获取目标物特征的模型和目标物搜索方法及装置 |
CN109033086A (zh) * | 2018-08-03 | 2018-12-18 | 银联数据服务有限公司 | 一种地址解析、匹配的方法及装置 |
Non-Patent Citations (4)
Title |
---|
DILEK KUCUK MATCI 等: "Address standardization using the natural language process for improving geocoding results", 《COMPUTERS, ENVIRONMENT AND URBAN SYSTEMS》, pages 1 - 8 * |
QIN TIAN 等: "Using an Optimized Chinese Address Matching Method to Develop a Geocoding Service: A Case Study of Shenzhen, China", 《INTERNATIONAL JOURNAL OF GEO-INFORMATION》, pages 1 - 17 * |
朱擎量;吴健平;: "多元分词技术和全文检索技术在GIS地址定位中的应用", 《测绘与空间地理信息》, no. 05, pages 203 - 206 * |
王磊: "基于语义分析的建筑地址标准化研究", 《中国优秀硕士学位论文全文数据库》, pages 038 - 2646 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618867A (zh) * | 2022-10-27 | 2023-01-17 | 中科星图数字地球合肥有限公司 | 地址纠错方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112417812B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885824B (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN112507065B (zh) | 一种基于注释语义信息的代码搜索方法 | |
WO2022134592A1 (zh) | 地址信息解析方法、装置、设备及存储介质 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN1159661C (zh) | 用于中文的标记和命名实体识别的系统 | |
CN108369582B (zh) | 一种地址纠错方法及终端 | |
CN108287858A (zh) | 自然语言的语义提取方法及装置 | |
CN110990520B (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN110134780B (zh) | 文档摘要的生成方法、装置、设备、计算机可读存储介质 | |
CN112256817A (zh) | 一种地理编码方法、系统、终端以及存储介质 | |
CN111814477B (zh) | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 | |
CN112835894A (zh) | 一种基于地址编码和相似计算的地址匹配方法 | |
CN113486178A (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN115658837A (zh) | 地址数据处理方法和装置、电子设备和存储介质 | |
CN117010398A (zh) | 一种基于多层知识感知的地址实体识别方法 | |
CN115470307A (zh) | 一种地址匹配方法及装置 | |
CN115562679A (zh) | 一种基于Java语言的自动生成代码的方法及服务器 | |
CN112417812A (zh) | 地址标准化方法、系统及电子设备 | |
CN114329112A (zh) | 内容审核方法、装置、电子设备及存储介质 | |
JP6476886B2 (ja) | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム | |
CN111400429B (zh) | 文本条目搜索方法、装置、系统及存储介质 | |
CN104199811A (zh) | 短句解析模型建立方法及系统 | |
CN112966501B (zh) | 一种新词发现方法、系统、终端及介质 | |
CN113535883B (zh) | 商业场所实体链接方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |