CN110377897A - 中英文地址自动检测方法及系统 - Google Patents
中英文地址自动检测方法及系统 Download PDFInfo
- Publication number
- CN110377897A CN110377897A CN201810330903.4A CN201810330903A CN110377897A CN 110377897 A CN110377897 A CN 110377897A CN 201810330903 A CN201810330903 A CN 201810330903A CN 110377897 A CN110377897 A CN 110377897A
- Authority
- CN
- China
- Prior art keywords
- english
- chinese
- address
- phrase
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 29
- 238000012795 verification Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 2
- 238000013519 translation Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种中英文地址自动检测方法及系统。所述方法包括:对中英文地址进行数据预处理;采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;对经拼音和英文校验后的词组进行词相似模糊匹配校验;输出经自动检测后的中英文地址及提示信息。所述方法可实现通关件中英文地址对应关系的自动识别与校验;可以自动检测中英文地址是否对应,可兼容不同用户风格各异的英文地址书写习惯以及翻译风格,还可以自动辨别用户可能存在的拼写错误、或因为用户书写潦草而引起的系统录入时的辨认错误,给出相应提示信息等。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种中英文地址自动检测方法及系统。
背景技术
随着电子商务及快递物流产业的发展,通关快件的数量规模在不断扩大,与此同时产生了海量的地址数据。通关件的收件地址包括英文地址及中文地址,英文地址必须与中文地址一一对应。
目前的通关地址处理模式为,关务人员对大量的中英文地址逐条进行人工审查,判断收件中英文地址是否对应正确。该处理模式对审核人员的英文水平,拼音水平,地址信息储备能力都有较高的要求。此外,不同用户的英文地址书写顺序、缩写习惯、翻译水平、字迹工整程度也各不相同,进一步增加了人工审查的难度。而尝试使用google翻译,有道翻译,百度翻译等方式直接对通关件地址翻译效果也很不理想,仍需大量人工辨识、理解、纠错工作。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
鉴于上述问题,本发明的一个目的在于提供一种中英文地址自动检测方法。该方法可实现通关件中英文地址对应关系的自动识别与校验,大量减轻或替代人工审核标注工作。
本发明的第二个目的在于提供一种中英文地址自动检测系统。该系统在运行时能够实现如上所述方法的步骤。
本发明的第三个目的在于提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上方法所述的步骤。
本发明的第四个目的在于提供一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上方法所述的步骤。
为了实现上述第一个目的,本发明采用如下技术方案:
一种中英文地址自动检测方法,包括如下步骤:
对中英文地址进行数据预处理;
采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;
对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出经自动检测后的中英文地址及提示信息。
优选地,所述方法还包括:得到若干词组后、对词组进行校验前的区分词组中的中文数字是否转化为阿拉伯数字的步骤。
优选地,采用结合上下文的二元语言模型来区分词组中的中文数字是否转化为阿拉伯数字。
优选地,所述数据预处理包括中文编码转换和/或数据筛选和/或中文数字转换阿拉伯数字。
优选地,所述切词算法包括DAG切词算法、Viterbi切词算法、HMM切词算法中的一种或多种。
优选地,所述分词方法包括pattern split分词方法。
优选地,所述对词组中的门牌号及街区号进行数字、字符校验,包括通过比较中英文地址中该部分的jaccard距离,校验中文地址中出现的门牌号及街区号是否对应出现在英文地址中,并给出提示信息。
优选地,所述对词组中的地址要素词进行拼音及英文校验,包括通过比较中英文地址中该部分的编辑距离,校验中文地址中出现的地址要素词是否对应出现在英文地址中,并给出提示信息
优选地,所述方法还包括:当对所述词组中的地址要素词进行拼音校验失败后,启动本地自定义词库和/或在线字典对所述地址要素词进行查询,通过比较编辑距离再次进行校验。
优选地,所述方法还包括:当使用在线字典完成所述地址要素词的查询和再次校验后,将所述地址要素词的查询和再次校验信息存储于所述本地自定义词库中。
优选地,所述对经拼音和英文校验后的词组进行词相似模糊匹配校验包括通过比较jaccard距离及编辑距离对经拼音和英文校验后的词组进行词相似模糊匹配校验;当jaccard距离和编辑距离满足特定阈值限制,则认为匹配成功,给出提示信息。
优选地,所述方法还包括:得到若干词组后、对词组进行校验前,根据自定义的停用词库去掉词组中的停用词的步骤。
本发明还公开一种中英文地址自动检测系统,所述系统包括:
数据预处理模块,用于对中英文地址进行数据预处理;
切词分词模块,用于对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
校验模块,用于对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;以及对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出模块,用于输出经自动检测后的中英文地址及提示信息。
本发明还公开一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如下步骤:
对中英文地址进行数据预处理;
采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;
对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出经自动检测后的中英文地址及提示信息。
本发明还公开一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如下步骤:
对中英文地址进行数据预处理;
采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;
对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出经自动检测后的中英文地址及提示信息。
本发明有益效果:
1、使用基于DAG、Viterbi及HMM的中英文地址要素切词算法,结合中英文地址词性特点,自定义停用词库,自动检测中英文地址的匹配关系。
2、使用自定义词库的创建和扩充技术,解决网页爬取过于频繁及次数限制问题,同时提升程序效率。
3、使用jaccard距离及编辑距离算法,自动辨别用户可能存在的拼写错误、或系统录入时的人工辨认错误;辨识中英文地址不对应的部分,并给出提示信息。
4、可兼容不同用户风格各异的英文地址书写习惯以及中文拼音及英文混用的翻译方法。
5、大量减轻或替代人工审核标注工作。
附图说明
图1示出了实施例1中的中英文地址自动检测方法流程图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明进行详细描述。在这些附图中,对于相同或者相当的构成要素,标注相同标号。以下仅为本发明的最佳实施方式,本发明并不仅限于下述内容。
实施例1
图1示出了实施例1中的中英文地址自动检测方法流程图。
如图1所示,中英文地址自动检测方法包括如下步骤:
首先,步骤S1中,对中英文地址进行数据预处理。该数据预处理包括中文编码转换和/或数据筛选和/或中文数字转换阿拉伯数字。
例如具体可为:从Hive数据仓库中抽取中英文地址数据,进行中文编码转换,数据筛选等数据预处理,进入数据结构Bunch类中。
其中,Hive是hadoop生态系统中的一个常用组件,是一个数据仓库工具。数据结构Bunch类是一个根据待处理的数据结构设计的Python类。
其中,数据筛选是指源数据的内容栏位很多,需要使用HQL及python写相关代码,提取出地址校验需要的信息,并按照一定格式进行输出,以待后续处理。
步骤S2中,采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组。切词算法包括DAG切词算法、Viterbi切词算法、HMM切词算法中的一种或多种。分词方法包括pattern split分词方法。
例如具体可为:针对步骤S1中经数据预处理后的中英文地址数据,使用基于DAG、Viterbi及HMM的切词算法,及pattern split方法进行切词和分词,做取词性处理,根据词组的细分属性得到若干词组,如地名,音译地名,其他专名,名词惯用语等等。
其中,“取词性处理”,是指先利用DAG切词算法、Viterbi切词算法、HMM切词算法、pattern split方法来切词和分词后,然后取词性。所谓词性就是名词、动词、副词、介词等等,名词里面又可以细分成地名、音译地名、机构团体名、其它专名、名词性惯用语,名词性语素等等。“取词性”就是按照词性将中英文地址细分为若干属性的词组。
使用基于DAG、Viterbi及HMM的中英文地址要素切词算法,结合中英文地址词性特点,能够高效自动检测中英文地址的匹配关系。
步骤S3中,对步骤S2中得到的若干词组,区分词组中的中文数字是否转化为阿拉伯数字。
例如具体可为:采用结合上下文的二元语言模型来区分地址元素词组中的中文数字是否转化为阿拉伯数字。如“文心五路”中的“五”不进行转换。“长安大厦三零六室”中的“三零六”转换为“306”。
步骤S4中,对经步骤S3处理后的词组中的门牌号及街区号进行数字、字符校验。
具体为:对门牌号及街区号的数字、字符校验,是指通过比较中英文地址中该部分的jaccard距离,校验中文地址中出现的门牌号及街区号是否对应出现在英文地址中,并给出提示信息。
例如针对如下的中英文地址进行数字、字符校验:
英文地址:7F BLFG 1S AREA 3 CHANGAN INDUSTRIAL ZONE CHANGAN TOWNCHANGAN DIST CAHNGAN CITY;
中文地址:长安市长安区长安镇长安工业3区A2栋2楼;
校验结果:高亮英文地址中的“7F BLFG 1S”以及中文地址中的“A2栋2楼”,并给出提示信息“请检查门牌号或街道号字符是否一致,及是否存在缺失!”。
步骤S5中,对经步骤S3处理后的词组中的地址要素词进行拼音及英文校验;通过比较中英文地址中该部分的编辑距离,校验中文地址中出现的地址要素词是否对应出现在英文地址中,并给出提示信息
具体为:对分词后的地址要素(如省市区大厦名称)进行拼音校验及英文校验,比较中英文地址中该部分的编辑距离,校验中文地址中出现的省市街区大厦名称等地址要素是否对应出现在英文地址中,并给出提示信息。
当然,步骤S4和步骤S5的先后顺序不受限制。
步骤S6中,对经拼音和英文校验后的词组进行词相似模糊匹配校验,并给出校验提示信息。
具体为:通过比较jaccard距离及编辑距离对经拼音和英文校验后的词组进行词相似模糊匹配校验;当jaccard距离和编辑距离满足特定阈值限制,则认为完全/模糊匹配成功,给出提示信息。
例如针对如下的中英文地址进行拼音、英文校验:
英文地址:2F BLFG A2 AREA 3 CHANGAN INDUSTRIAL ZONE CHANGAN TOWNCHANGAN DIST CAHNGAN CITY;
中文地址:长安市长安区长安镇长安工业3区A2栋2楼;
校验结果:英文地址与中文地址完全匹配成功。
步骤S7,输出经自动检测后的中英文地址及提示信息。
上述步骤S4-S6中,使用短文本相似jaccard距离及词编辑距离算法,自动辨别用户可能存在的拼写错误、或系统录入时的人工辨认错误;辨识中英文地址不对应的部分,并给出校验提示信息。
同时,还可兼容不同用户风格各异的英文地址书写习惯以及中文拼音及英文混用的翻译方法。
例如,可以设定:
当输出结果的类别显示为1时,中英文地址匹配成功,可兼容不同用户风格各异的英文地址书写习惯以及翻译方法。
当输出结果的类别显示为2时,中英文地址匹配失败,并给出匹配失败的原因及提示。如“请检查门牌号或街道号字符是否一致,及是否存在缺失!”、“请检查大厦、街区、省市名称是否正确!”等等。
当输出结果的类别显示为3时,自动辨别用户可能存在的拼写错误、或因为用户书写潦草而引起的系统录入时的辨认错误等,给出检查建议。在某些情况下,中英文地址较大可能对应,但可能由于用户笔误,极少数单词有轻微错误,如industrial zone写成industry zone,黄埔(huang bu)英文写成(huang pu)之类,或者用户英文地址缺失少量成分,如没有写省名称。此时就会输出结果类别3,并给出检查建议。如“请检查英文拼写是否正确!”等。
作为本实施方式的进一步改进,上述的中英文地址自动检测方法中,对分词后的地址要素(如省市区大厦名称)进行拼音校验,比较中英文地址中该部分的编辑距离,并给出提示信息。当步骤S5中的对所述词组中的地址要素词进行拼音校验失败后,上述的中英文地址自动检测方法还包括,步骤S8启动本地自定义词库对所述地址要素词进行查询,通过比较编辑距离再次进行校验;和/或步骤S9启动在线字典对所述地址要素词进行查询,通过比较编辑距离再次进行校验。
作为优选实施方式,对在上一步的拼音校验失败的地址要素词,先使用本地自定义词库进行查询,若本地没有则再调用在线中英文词典(例如有道词典网页版)进行查询,使用编辑距离再次进行校验,即优先进行步骤S8进行查询和校验。
作为本实施方式的进一步改进,上述的中英文地址自动检测方法还包括步骤S10,即当使用在线字典完成所述地址要素词的查询和再次校验后,将所述地址要素词的查询和再次校验信息存储于所述本地自定义词库中。
上述在线字典可以为有道网页版字典、有道翻译、金山词霸、灵格斯词典等等。
步骤S8、S9和S10结合起来,通过自定义词库及在线字典爬虫完成英文校验词库冷启动。具体来说就是对在上一步的拼音校验失败的地址要素词使用本地自定义词库进行查询,若本地没有则再调用在线字典典进行查询,使用编辑距离校验。在线查询过的中英文词组添加到本地自定义词库中,在处理的查询量大到一定程度时,完成自定义词库冷启动。
将在线查询过的中英文词组添加到本地自定义词库中,在处理的查询量大到一定程度时,完成自定义词库的创建和扩充。
使用自定义词库的建立和扩充技术,解决网页爬取过于频繁及次数限制问题,同时提升程序效率
作为本实施方式的进一步改进,上述的中英文地址自动检测方法中,在步骤S2后,步骤S4和S5前,还包括根据自定义的停用词库去掉词组中的停用词的步骤S11。
停用词库是自然语言处理中的一部分,停用词库中的词是指需要去除掉的内容。本实施方式中的停用词库是根据地址文本的特点和处理需要,自定义的停用词库。在前面切词、分词和取词性等处理后得到的若干词组中,对照停用词库,去掉词组中存在的停用词。
上述中英文自动检测方法,使用基于DAG、Viterbi及HMM的切词算法,自定义词库创建和扩充技术以及短文本相似算法jaccard距离和编辑距离,结合中英文地址要素特点,可实现通关件中英文地址对应关系的自动识别与校验。可以自动检测中英文地址是否一一对应,可兼容不同用户风格各异的英文地址书写习惯以及翻译风格,还可以自动辨别用户可能存在的拼写错误、或因为用户书写潦草而引起的系统录入时的辨认错误,给出相应提示信息等。
实施例2
一种中英文地址自动检测系统,所述系统包括:
数据预处理模块,用于对中英文地址进行数据预处理;
切词分词模块,用于对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
校验模块,用于对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;以及对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出模块,用于输出经自动检测后的中英文地址及提示信息。
该中英文地址自动检测系统在运行时可实现如实施例1中所述方法的步骤。
实施例3
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如下步骤:
对中英文地址进行数据预处理;
采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;
对经拼音和英文校验后的词组进行词相似模糊匹配校验;输出经自动检测后的中英文地址及提示信息。
更进一步地,该计算机可读介质上存储的计算机程序被处理器执行时可实现如实施例1中所述方法的步骤。
实施例4
一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如下步骤:
对中英文地址进行数据预处理;
采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;
对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出经自动检测后的中英文地址及提示信息。
更进一步地,该设备上的处理器执行程序时实现如实施例1中所述方法的步骤。
以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进。这些变型和改进也视为本发明的保护范围。
Claims (15)
1.一种中英文地址自动检测方法,其特征在于,包括如下步骤:
对中英文地址进行数据预处理;
采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;
对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出经自动检测后的中英文地址及提示信息。
2.根据权利要求1所述的中英文地址自动检测方法,其特征在于,所述方法还包括:得到若干词组后、对词组进行校验前的区分词组中的中文数字是否转化为阿拉伯数字的步骤。
3.根据权利要求2所述的中英文地址自动检测方法,其特征在于,采用结合上下文的二元语言模型来区分词组中的中文数字是否转化为阿拉伯数字。
4.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述数据预处理包括中文编码转换和/或数据筛选和/或中文数字转换阿拉伯数字。
5.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述切词算法包括DAG切词算法、Viterbi切词算法、HMM切词算法中的一种或多种。
6.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述分词方法包括pattern split分词方法。
7.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述对词组中的门牌号及街区号进行数字、字符校验包括通过比较中英文地址中该部分的jaccard距离,校验中文地址中出现的门牌号及街区号是否对应出现在英文地址中,并给出提示信息。
8.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述对词组中的地址要素词进行拼音及英文校验包括通过比较中英文地址中该部分的编辑距离,校验中文地址中出现的地址要素词是否对应出现在英文地址中,并给出提示信息。
9.根据权利要求1所述的中英文地址自动检测方法,其特征在于,所述方法还包括:当对所述词组中的地址要素词进行拼音校验失败后,启动本地自定义词库和/或在线字典对所述地址要素词进行查询,通过比较编辑距离再次进行校验。
10.根据权利要求9所述的中英文地址自动检测方法,其特征在于,所述方法还包括:当使用在线字典完成所述地址要素词的查询和再次校验后,将所述地址要素词的查询和再次校验信息存储于所述本地自定义词库中。
11.根据权利要求1所述的中英文地址自动检测方法,其特征在于:所述对经拼音和英文校验后的词组进行词相似模糊匹配校验包括通过比较jaccard距离及编辑距离对经拼音和英文校验后的词组进行词相似模糊匹配校验;当jaccard距离和编辑距离满足特定阈值限制,则认为匹配成功,给出提示信息。
12.根据权利要求1所述的中英文地址自动检测方法,其特征在于,所述方法还包括:得到若干词组后、对词组进行校验前,根据自定义的停用词库去掉词组中的停用词的步骤。
13.一种中英文地址自动检测系统,其特征在于,所述系统包括:
数据预处理模块,用于对中英文地址进行数据预处理;
切词分词模块,用于对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
校验模块,用于对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;以及对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出模块,用于输出经自动检测后的中英文地址及提示信息。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如下步骤:
对中英文地址进行数据预处理;
采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;
对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出经自动检测后的中英文地址及提示信息。
15.一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如下步骤:
对中英文地址进行数据预处理;
采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理,得到若干词组;
对词组中的门牌号及街区号进行数字、字符校验,对词组中的地址要素词进行拼音及英文校验;
对经拼音和英文校验后的词组进行词相似模糊匹配校验;
输出经自动检测后的中英文地址及提示信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810330903.4A CN110377897A (zh) | 2018-04-13 | 2018-04-13 | 中英文地址自动检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810330903.4A CN110377897A (zh) | 2018-04-13 | 2018-04-13 | 中英文地址自动检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110377897A true CN110377897A (zh) | 2019-10-25 |
Family
ID=68243336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810330903.4A Pending CN110377897A (zh) | 2018-04-13 | 2018-04-13 | 中英文地址自动检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377897A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353397A (zh) * | 2020-02-22 | 2020-06-30 | 郑州铁路职业技术学院 | 基于大数据和ocr的网络课堂中文板书结构化分享系统 |
CN112633283A (zh) * | 2021-03-08 | 2021-04-09 | 广州市玄武无线科技股份有限公司 | 一种英文邮件地址的识别与翻译方法及系统 |
CN114036901A (zh) * | 2021-11-10 | 2022-02-11 | 许昌许继软件技术有限公司 | 一种基于iec61850的语法语义校验结果可视化方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482862A (zh) * | 2009-01-20 | 2009-07-15 | 上海邮政科学研究院 | 一种英文信件地址的中文自动批译方法 |
CN102012897A (zh) * | 2010-12-02 | 2011-04-13 | 无敌科技(西安)有限公司 | 一种实现高命中率的逐词比对方法 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
-
2018
- 2018-04-13 CN CN201810330903.4A patent/CN110377897A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482862A (zh) * | 2009-01-20 | 2009-07-15 | 上海邮政科学研究院 | 一种英文信件地址的中文自动批译方法 |
CN102012897A (zh) * | 2010-12-02 | 2011-04-13 | 无敌科技(西安)有限公司 | 一种实现高命中率的逐词比对方法 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353397A (zh) * | 2020-02-22 | 2020-06-30 | 郑州铁路职业技术学院 | 基于大数据和ocr的网络课堂中文板书结构化分享系统 |
CN112633283A (zh) * | 2021-03-08 | 2021-04-09 | 广州市玄武无线科技股份有限公司 | 一种英文邮件地址的识别与翻译方法及系统 |
CN114036901A (zh) * | 2021-11-10 | 2022-02-11 | 许昌许继软件技术有限公司 | 一种基于iec61850的语法语义校验结果可视化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104679728B (zh) | 一种文本相似度检测方法 | |
Wang et al. | Bootstrapping both product features and opinion words from chinese customer reviews with cross-inducing | |
KR101130444B1 (ko) | 기계번역기법을 이용한 유사문장 식별 시스템 | |
CN108984529A (zh) | 实时庭审语音识别自动纠错方法、存储介质及计算装置 | |
CN103324621B (zh) | 一种泰语文本拼写纠正方法及装置 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
El-Shishtawy et al. | An accurate arabic root-based lemmatizer for information retrieval purposes | |
US20200311345A1 (en) | System and method for language-independent contextual embedding | |
US11562593B2 (en) | Constructing a computer-implemented semantic document | |
CN110377897A (zh) | 中英文地址自动检测方法及系统 | |
CN112287100A (zh) | 文本识别方法、拼写纠错方法及语音识别方法 | |
Kübler et al. | Part of speech tagging for Arabic | |
CN113268538A (zh) | 一种基于领域知识图谱的复杂装备故障溯源方法及系统 | |
CN109614623A (zh) | 一种基于句法分析的作文处理方法及系统 | |
CN115048940A (zh) | 基于实体词属性特征和回译的中文金融文本数据增强方法 | |
Oo et al. | An analysis of ambiguity detection techniques for software requirements specification (SRS) | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
Aqel et al. | Comparative study for recent technologies in Arabic language parsing | |
Suman et al. | Gender Age and Dialect Recognition using Tweets in a Deep Learning Framework-Notebook for FIRE 2019. | |
Wu et al. | Integrating dictionary and web N-grams for chinese spell checking | |
JP5203324B2 (ja) | 誤字脱字対応テキスト解析装置及び方法及びプログラム | |
Aichaoui et al. | Automatic Building of a Large Arabic Spelling Error Corpus | |
CN102576367B (zh) | 用于提取短语及说明的文档处理装置及方法 | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191025 |