CN116028589A - 一种地址识别方法、装置和电子设备 - Google Patents
一种地址识别方法、装置和电子设备 Download PDFInfo
- Publication number
- CN116028589A CN116028589A CN202111240034.4A CN202111240034A CN116028589A CN 116028589 A CN116028589 A CN 116028589A CN 202111240034 A CN202111240034 A CN 202111240034A CN 116028589 A CN116028589 A CN 116028589A
- Authority
- CN
- China
- Prior art keywords
- address information
- word
- address
- word segmentation
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 134
- 230000011218 segmentation Effects 0.000 claims abstract description 169
- 238000002372 labelling Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 73
- 238000013508 migration Methods 0.000 claims description 53
- 230000005012 migration Effects 0.000 claims description 53
- 238000004422 calculation algorithm Methods 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 42
- 238000012937 correction Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 15
- 230000006835 compression Effects 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims 2
- 244000144730 Amygdalus persica Species 0.000 description 15
- 235000006040 Prunus persica var persica Nutrition 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 15
- 238000007726 management method Methods 0.000 description 13
- 238000009826 distribution Methods 0.000 description 12
- 230000007704 transition Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000012423 maintenance Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009430 construction management Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- -1 electricity Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 241000411851 herbal medicine Species 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910001092 metal group alloy Inorganic materials 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种地址识别方法、装置和电子设备,属于计算机技术领域,其中,方法包括:接收待识别地址信息;对所述待识别地址信息进行分词,得到分词结果;基于预设最大熵标注模型,分别从L个备选地址词性中确定所述分词结果中每一个分词对应的词性,其中,所述L个备选地址词性与L个地址信息等级对应,L为大于1的整数;根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,其中,所述目标地址信息与预设地址信息结构匹配,所述预设地址信息结构包括所述L个地址信息等级。本发明实施例能够提升对地址信息的识别准确性。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种地址识别方法、装置和电子设备。
背景技术
在相关技术中,地址信息的数量繁多、结构复杂,且地名和地址的使用均带有较重的地方特色,没有形成统一规范的地理编码和命名规则;另外,相同的词在不同的前后语境下会存在不同的含义,造成了中文地址分词和匹配的难度要远大于英文等类型的表音文字,进而使中文地址的识别精确度较低。
发明内容
本发明的目的是提供一种地址识别方法、装置和电子设备,能够解决相关技术中的中文地址的识别精确度较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明提供了一种地址识别方法,包括:
接收待识别地址信息;
对所述待识别地址信息进行分词,得到分词结果;
基于预设最大熵标注模型,分别从L个备选地址词性中确定所述分词结果中每一个分词对应的词性,其中,所述L个备选地址词性与L个地址信息等级对应,L为大于1的整数;
根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,其中,所述目标地址信息与预设地址信息结构匹配,所述预设地址信息结构包括所述L个地址信息等级。
第二方面,本发明还提供了一种地址识别装置,包括:
接收模块,用于接收待识别地址信息;
第一分词模块,用于对所述待识别地址信息进行分词,得到分词结果;
第一确定模块,用于基于预设最大熵标注模型,分别从L个备选地址词性中确定所述分词结果中每一个分词对应的词性,其中,所述L个备选地址词性与L个地址信息等级对应,L为大于1的整数;
转化模块,用于根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,其中,所述目标地址信息与所述预设地址信息结构匹配,所述预设地址信息结构包括所述L个地址信息等级。
第三方面,本发明还提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
在本发明实施例中,接收待识别地址信息;对所述待识别地址信息进行分词,得到分词结果;基于预设最大熵标注模型,分别从L个备选地址词性中确定所述分词结果中每一个分词对应的词性,其中,所述L个备选地址词性与L个地址信息等级对应,L为大于1的整数;根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,其中,所述目标地址信息与预设地址信息结构匹配,所述预设地址信息结构包括所述L个地址信息等级。这样,先将待识别地址信息拆分为粒度更小的分词,然后利用预设最大熵标注模型对每一个分词进行词性标注,从而在确定每一个分词的词性之后,可以按照预设地址信息结构对应的地址信息结构对待识别地址信息中的分词进行顺序调整等处理,以实现将与预设地址信息结构不匹配的非规则地址信息转换为与预设地址信息结构匹配的规则的地址信息,进而形成了统一规范地址命名规则,以便于根据该预设地址信息结构对该规则的地址信息进行识别,以提升地址信息的识别精确度。
附图说明
图1是本发明提供的一种地址识别方法的流程图;
图2是利用预设隐马尔科夫分词模型进行中文分词的流程图;
图3是能够应用本发明提供的地址识别方法的地址识别装置的结构示意图;
图4是预设概率有限状态机模型的工作原理示意图;
图5是应用本发明提供的另一种地址识别方法中的各模块之间的数据交互示意图;
图6是本发明提供的一种地址识别装置的结构示意图;
图7是本发明提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
地址信息的识别在各个技术领域中都有着重要的意义,例如:在应用于移动网络资源管理和运维生产过程中时,在用户或运维人员等输入地址信息后,能够准确的对该地址信息进行识别,并找到识别后的地址信息所对应的地址或资源或设备等,其不仅能够提供高效支撑运维生产,指导故障处理、网络规划等工作,还能够快速、高效的支撑业务开通,提升客户感知。同样,以资源为例,运维生产又决定着资源的变化,只有将资源管理嵌入生产运维中去,让一线生产维护人员参与到资源管理工作来,才能有效推动资源管理工作的落地,提升资源数据质量。在相关技术中,通信运营平台指定了一系列的标准规范,以明确资源管理生产流程的主要环节、各环节管控字段、对接外系统接口等内容,并明确资源管理嵌入运维生产工作的基本要求等,以提升资源数据质量。
其中,资源数据质量的重要内容包括对标准地址的管理建立统一化、标准化的地址库,例如:十一级地址库。这样,可以解决地图定位的最后1米难题,其对内可以实现公司内部各系统地址数据的统一,具体的,标准化的地址库能够为资源管理、代理运维、网络优化、网络投资、集中性能、智能规划等系统调用,将网络资源匹配到空间十一级地址,实现网络资源、业务数据的地图可视化呈现管理。
当然,上述标准化的地址库还可以为社区管理、房屋建造管理、物流配送、水电煤公众服务等提供有力的支撑,为了便于说明,以下实施例中以本申请实施例提供的地址识别方法应用于移动网络资源管理为例进行举例说明。且以上述标准化的地址库为11级地址分级标准为例,进行举例说明,其中,11级地址分级标准包括以下11个地址信息等级1:省;2:地市;3:区县;4:乡镇街道;5:路/巷/街;6:门牌号码;7:小区/行政村/单位/楼宇;8:楼栋;9:单元;10:层;11:房号,11级地址分级标准具体如下表1所示。
表1
值得说明的是,上述标准化的地址库除了可以是11级地址分级标准之外,其还可以根据实际业务场景进行适当的调整,在此对标准化的地址库不作具体限定。
目前不同省份或地区的综合资源管理系统内的标准地址数据,是由各属地分公司人员在实际业务发生时按照需求自行录入。期间存在标准地址数据地名地址要素不全、地名地址有错别字、地址信息与建筑实体不符、同一地名地址对应多条数据记录、新老地名标准与非标准地名并用等问题,即地址信息存在”缺、漏、错、乱、重”的问题,该问题对现有业务应用影响很大。
例如:家庭客户业务设备录入综合资源管理系统时,查询地址数据用的地址或名称为关键字,文字匹配结果存在不精确性,导致地址与设备的关系无法准确一一对应的问题。
再例如:在新增地址的过程中,很容易把名称或者地址输错、输重。造成一个地址有多条数据,若该多条数据都已绑定设备数据,将对后期评估、维护、测算准确率等造成不利影响。
基于此,对于维护人员、网络管理员等用户录入到地址库中的数据,需要进行进一步的清洗,以得到符合要求的标准十一级地址数据,方能供业务系统使用。对于原始地址的识别结果的好坏将直接影响到后续相关任务的最终效果。目前地址识别方法可大体分为3类:基于词典的地址识别方法、基于规则的地址识别方法和基于统计的地址识别方法:
一、基于词典的地址识别的方法需要构建一个词典,其中包含常用的词语。对文本分词时根据不同的匹配规则将文本与词典内容进行匹配,然后对文本进行切分完成分词操作。其中比较有代表性的基于词典的分词方法有正向最大匹配、逆向最大匹配、双向匹配算法以及N-最短路径分词算法等。
基于词典的地址识别方法缺点很明显:第一,基于词典的中文分词方法是一种“机械的”分词方法,只是单纯地在词典中进行中文字符串的匹配工作,某个字符串在词典中如果匹配到了,可确定它是一个词语;如果匹配不到,便认为它不是一个词语,过于依赖词典;第二,没有考虑词语与词语之间的关系,也没有进行语法方面的匹配,很容易导致分词的结果存在较大的歧义。
二、基于规则的方法从语言学角度出发,通过分析句子的语义来实现对文本的切分,具体实现则利用专家系统,专家系统主要有两部分构成,一部分是独立的知识库,另一部分是一个推理机。系统将识别的过程转变为知识的推理过程,也就是所谓的句子“分词树”的生长过程。
基于规则的地址识别方法,由于该方法首先需要构建一个规模巨大的知识库,而这是一个非常耗时、非常困难的任务。此外,推理的过程涉及到人工智能中的很多技术,要实现完全的自动推理面临很多目前无法解决的困难,因此该系统并未得到大规模的推广和使用。
三、基于统计的地址识别法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。基于大规模语料库的统计学习方法已经成为地址识别的主流方法,常用的统计机器模型包括隐马尔可夫模型、最大熵模型等。目前采用较多的地址识别方法就是基于统计的方法,机器模型为隐马尔可夫模型,隐马尔可夫模型使用的语料集需要进行预处理,将句子中的词与词用空格符切分开来。每一个词语wi出现的概率由该词语前面的第i-1个词语的概率决定的,这是隐马尔可夫模型的核心思想,即用已知的条件来推测未知的,最终选择概率最大的一种组合作为最终的分词结果。
基于统计的地址识别方法都使用到了大规模语料库,主要是基于隐马尔科夫模型,其属于生成模型,并不对P(Y|X)建模,而是转换为对P(Y,X)建模。一个最大的缺点就是由于其输出独立性假设,观测值仅与当前状态生成有关而与其他状态无关,导致其不能考虑上下文的特征,限制了特征的选择,解析性能受到限制。基于此,隐马尔科夫模型在对数量级较小的数据的处理上是合适的,但实际上在大量真实语料中观察序列更多的是以一种多重的交互特征形式表现的,观察元素之间广泛存在长程相关性,例如:在命名实体识别任务中,由于实体本身结构所具有的复杂性,利用简单的特征函数往往无法涵盖所有特性,这时隐马尔科夫模型的假设前提使得它无法使用复杂特征,其对大量十一级地址数据的识别和解析中的弊端就显现无疑了。
另外,鉴于现实世界中信息的膨胀给中文地址识别技术提出了新的挑战,目前存在很多地址识别不准确的情况,主要的原因在于:1)因为我国幅员辽阔,各个地区的地址使用习惯复杂多变,不仅仅是省与省之间存在较大差距,就算是同一个省内的不同城市,在门牌地址的规范上也存在差异。国家除了对县及县以上行政地址名称有明确规定外,其他级别的地址信息由于数量繁多、结构复杂,长期以来按照属地化管理等原因造成了地名、地址的使用均带有较重的地方特色,没有形成统一规范的地理编码和命名规范。2)从自然语言识别的角度出发,与英文等音标语言不同,中文属于象形文字,中文词语之间没有分割符号(空格),相同的词在不同的前后语境下会存在不同的含义,这就造成了中文地址分词和匹配的难度要远大于英文等类型的表音文字。而相关技术中的地址识别方案(例如:基于词典的地址识别方法、基于规则的地址识别方法、基于统计的地址识别方法)分别存在一定程度的缺陷,均无法在十一级地址数据等标准化的地址数据处理中达到理想的效果。
而本发明实施例能够在获取到未按照标准化的地址库所要求输入的待识别地址信息(即待识别地址信息与标准化的地址库对应的预设地址信息结构不匹配)时,通过对该待识别地址信息进行分词,并引入最大熵理论,以基于最大熵马尔科夫模型的地址识别方法,在没有统一规范的地理编码和命名规范的前提下,实现地址数据的标准化,即生成符合标准化的地址库(为便于说明,以下实施例中以标准化的地址库为十一级地址数据库为例进行举例说明)要求的目标地址信息,进而能够保证基于该标准化的地址的业务能够顺利开展。
请参阅图1,是本发明实施例通过的一种地址识别方法的流程图,如图1所示,该方法可以包括以下步骤:
步骤101、接收待识别地址信息。
在具体实施中,上述待识别地址信息可以是用户输入的地址信息,或者是数据库中已经存在的地址信息,为了便于说明,以下实施例中以待识别地址信息为用户输入的地址信息为例进行举例说明。
在实际应用中,上述待识别地址信息可能存在错别字、地址顺序不规范或地址信息不完整等与预设地址信息结构不匹配的情况,这将造成不便于对各种不规范的地址信息进行识别。
步骤102、对所述待识别地址信息进行分词,得到分词结果。
在具体实施中,上述对所述待识别地址信息进行分词可以采用各种分词算法模型,对待识别地址信息进行分词处理,以将待识别地址信息中的字符串分割为至少两个分词汇。例如:基于词典的地址识别方法、基于规则的地址识别方法和基于统计的地址识别方法等技术中采用的分词方法。
作为一种可选的实施方式,所述方法还包括:
获取地址样本集,其中,所述地址样本集中包括至少两个地址样本信息;
基于预设平均感知器模型,对所述至少两个地址样本信息进行分词,得到语料库;
所述对所述待识别地址信息进行分词,得到分词结果,包括:
基于预设隐马尔科夫分词模型和所述语料库,对所述待识别地址信息进行目标分词,得到分词结果,其中,所述目标分词包括以下至少一项:原子切分、简单未登录词切分、嵌套未登录词切分和隐马尔科夫分词。
在具体实施中,上述地址样本集中的至少两个地址样本信息,可以是用户预先输入至地址库中的大量地址信息,且该地址库中的地址信息可以与待识别地址信息相同,都可能存在错别字、地址顺序不对或地址信息不完整等与预设地址信息结构不匹配的情况。
<第一方面>
上述预设平均感知器模型用于生成所述预设隐马尔科夫分词模型所需的语料库,以使所述预设隐马尔科夫分词模型根据该语料库可以构建11级地址要素模型,从而通过将所述待识别地址信息中的字符信息与11级地址要素模型中的要素进行匹配,便可以根据匹配结果来实现分词,以提升分词结果的可靠性。
具体的,平均感知器算法属于在线算法,在线算法的特点是更新参数时不需要一次使用所有训练数据,而是每次使用一个训练实例对参数进行更新,因此在面对大规模训练数据时在线算法有巨大的优势。
具体的,相关技术中的平均感知器是在线学习二分类算法,算法目标是学习得到一个线性分类面f(x)=wTX。对于新的样本,用f(x)的正负来判定它的类别标记。当f(x)>0时将x判定为正类,否则将x判定为负类。假设在t时刻,获取到新到达的训练样本及其标记(xi,yi),这里xi∈Rn,yi∈{±1}。yi=1表示xi属于正类,yi=-1表示xi属于负类。当前分类模型记为ft,模型参数记作wt。很明显,当说明模型ft可以正确判定当前样本xt的类别;否则说明ft判定失败。其中,T={(x1,y1),(x2,y3),…,(xN,yN)},其表示训练数据集;Rn表示n维向量空间,每个元素是n维向量,向量中的每个分量是实数。
感知器算法的执行过程如下:
(1)算法初始化:令w1=0
(2)For i=1,2,……n
(3)收到当前的训练样本(xi,yi)
(5)wi+1=wi
(6)Else
(7)wi+1=wi+yixi
(8)End if
(9)End For
(10)算法输出:wi+1
本申请实施例中所用到的平均感知器算法和感知器算法的训练方法一样。不同的是平均感知器算法每次训练样本xi后,保留先前训练权值{W1,W2,……Wn},训练结束后平均所有权值即:
最终用平均权值作为最终判别准则的权值。该平均感知器算法如下:
初始化列表(Initialization):{w1,w2,……wn}=0
For i=1,2,……n
接收训练样本数据xi∈Rd,yi∈{-1,+1}
接收正确标签(Receive correct lable):yi∈{-1,+1}
更新参数(Update)wi+1=wi+yixi
本实施方式中,利用平均感知器算法对参数进行平均化,可以克服由于学习频率过快所引起的训练过程中出现的震荡现象。
在具体实施中,可以采用以下方式中的至少一种,来简化平均感知器算法模型的训练过程:
方式一
所述预设平均感知器模型基于以下过程得到:
获取训练样本数据;
将所述训练样本数据划分为N个不相交的样本子集;
分别基于N个所述样本子集训练得到N个第一感知器算法模型;将所述N个第一感知器算法模型融合,得到所述预设平均感知器模型;或者,
依次采用所述N个样本子集对感知器算法模型中的参数进行N次迭代更新,以得到所述预设平均感知器模型。
在具体实施中,上述训练样本数据可以是语料库数据,当语料库数据的规模较大时,将语料库数据划分为N个不相交的子集,并在N个不相交子集上并行的训练N个子模型,最后对N个子模型进行融合得到最终的预设平均感知器模型。基本步骤是:
步骤1:将训练集T划分为N个不相交的子集,即T={T1,T2,T3,……,TN}:;
步骤2:在每一个子集上使用感知器算法训练一个模型;
步骤3:最对N个模型参数权重根据融合系数μ={μ1,μ2,μ3,……μN}进行加权求和得到最终的模型。每一个子模型都在一个不相交的子集上进行训练,可以很容易的在集群系统上实现分布式并行训练或者使用多线程实现并行训练。
本实施方式中,可以将大规模的语料库数据划分为数量级较小的N个子集,以利用N个子集并行的训练N个子模型,最后,将N各子模型进行参数融合,即可得到最终的预设平均感知器模型,其可以减少每一个子模型的训练过程中使用的样本数量和计算量,且利用N个子集并行的训练N个子模型,可以大大缩减对大规模的语料库数据中的全部样本数据进行训练的时长。
方式二
所述预设平均感知器模型基于以下过程得到:
获取训练样本数据;
将所述训练样本数据划分为N个不相交的样本子集;
采用所述N个样本子集对N个感知器算法模型中的参数进行迭代参数融合,以得到所述预设平均感知器模型。
上述采用所述N个样本子集对N个感知器算法模型中的参数进行迭代参数融合,可以理解为:在上述方式一的基础上,每一轮迭代结束时,对N个感知器算法模型中的参数进行融合更新,然后每个子模型使用融合更新后的参数进行下一次迭代。
方式一中直接进行参数融合的方式,虽然解决训练效率问题,但是并不能保证模型对数据的可分性不变。即对于一个可分的训练数据,使用直接参数融合并行训练算法并不能保证得到一个对训练数据可分的模型。因此直接参数融合并行训练算法不能保证最终模型的性能。而上述实施方式二可以在方式一的基础上进行迭代参数融合,可以得到训练数据可分的模型。
方式三
获取训练样本数据;
获取基于所述训练样本数据训练得到的第四平均感知器模型,以及获取模型压缩比例;
确定所述第四平均感知器模型中的每一个特征参数的权重;
基于所述模型压缩比例,确定第一阈值;
将所述第四平均感知器模型中权重小于或等于所述第一阈值的特征参数删除,以得到所述预设平均感知器模型。
在具体实施中,上述基于所述训练样本数据训练得到的第四平均感知器模型可以是通过方式一或方式二所训练得到的平均感知器模型。
在具体实施中,训练出的平均感知器模型中有大量特征参数的权重很小,该权重很小的特征参数对于计算结果的影响较小,通过统计特征参数的权重对模型进行压缩,将对计算分数结果影响较小的特征参数从模型中删除,可以在不显著影响性能的前提下既可以减小模型文件的大小还可以降低对内存的需求。
其中,上述权重很小的特征可以表示为:权重小于或等于第一阈值的特征参数。上述第一阈值可以根据模型压缩比例确定,即模型压缩比例越大,则第一阈值的取值越大,使得符合小于或等于第一阈值的特征参数越多;且模型压缩比例越小,则第一阈值的取值越小,使得符合小于或等于第一阈值的特征参数越少,其具体过程如下:
步骤1、设定压缩比例,统计模型的特征权重;
步骤2、根据设定的压缩比例得到阈值,将权重绝对值小于阈值的特征从模型中删除。
通过对模型进行压缩,不仅可以减小模型文件本身的大小,还可以在一定程度上减小运行时的内存需求和时间。因此,在训练语料规模、特征数量、内存需求较大时,可以对模型进行压缩,而不会显著的降低模型性能。
方式四
所述预设平均感知器模型基于以下过程得到:
获取训练样本数据;
基于所述训练样本数据训练得到第二感知器算法模型;
获取样本增量数据;
基于所述样本增量数据训练得到第三感知器算法模型;
将所述第二感知器算法模型和所述第三感知器算法模型融合,得到所述预设平均感知器模型。
在具体实施中,上述训练样本数据可以理解为已有的初始语料,上述样本增量数据可以理解为新获取到的增量语料,本实施方式中,使用初始语料训练一个初始模型M1,然后根据增量语料继续训练一个子模型M2,然后将子模型M2和初始模型M1进行融合得到最终模型M。其中,在对子模型和初始模型进行融合时,我们使用了下面的参数融合方法:
其中,p1表示:模型M1在开发集上的性能参数(例如:用于表示效率的运行时间参数等);p2表示:模型M2在开发集上的性能;fi表示:第i个特征向量;wi表示:模型M中第i个特征fi的权重;w1,i表示:特征fi在模型M1中的权重。
本实施方式中,对于统计模型的训练方法,区别于传统做法中无法高效增量训练统计模型的缺点,本发明采用的是基于平均感知器算法的方案,在不需要使用原有训练语料的前提下,根据现有新增语料和原有模型进行增量训练,得到一个性能更好的模型,在避免对原有语料资源的需求同时,实现了节约使用所有语料重新训练模型所需时间和资源的效果。
<第二方面>
上述基于预设隐马尔科夫分词模型和所述语料库,对所述待识别地址信息进行目标分词,得到分词结果,可以理解为:根据所述语料库中的语料信息,利用预设隐马尔科夫分词模型对所述待识别地址信息进行原子切分、简单未登录词切分、嵌套未登录词切分和隐马尔科夫分词等分词处理中的至少一项,以将所述待识别地址信息分割为分别多个不同地址信息等级一一对应的地址子信息。
上述地址信息等级可以理解为地址子信息的等级信息,例如:假设地址信息等级、地址类别以及关键字之间的对应关系如下表2所示,且假设某一地址信息为:A市B区C街道100号,则A市这一地址子信息对应的地址信息等级为2级:
表2
其中,兴趣点(Point of Interest,POI)可以是地理信息系统中的一个工业园、一栋房子、一个商铺、一个邮筒、一个公交站等。
如上表2中,对中文门牌地址的要素级别(其也可以简称为门址要素或地址信息等级)的设计,重点参考了当前的城市建设标准,并且POI搜索系统日志数据中记录的用户门址要素实际使用情况,将中文门牌地址分成了9个等级,其中,第1级至第8级与如上表1中的第1级至第8级一一对应,且上述表2中的第9级与如上表1中的第9级至第11级对应。这样,可以将表1中的第9级至第11级对应的地址信息合并为一个词汇,以提升表2中的第9级地址要素的覆盖范围。而且,实际应用中,一个具体的地址信息往往不会同时包括与如上表1中的第9级至第11级分别对应的3个地址子信息,例如:对于地址信息:XX工业园区8栋A单元,其不具备与表1中的第10级至第11级分别对应的楼层信息和房号信息。通过将表1中的第9级至第11级对应的地址信息合并为一个词汇,可以避免对地址信息进行过度切割。
值得说明的是,上述表1和表2主要是针对国内的地址识别,所以在门址元素的设计上以及后续设计,都不包括国家信息的识别。
进一步的,上述原子切分、简单未登录词切分、嵌套未登录词切分和隐马尔科夫分词等分词处理的具体过程如下:
1)对POI名称完成原子切分,原子切分就是按照字符切分,实现最小粒度的分词,如“辽宁省沈阳市浑南区新隆街6号”,在此过程中切分为“辽、宁、省、沈、阳、市、浑、南、区、新、隆、街、6、号”;
2)简单未登录词切分,未登录词即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等;
3)嵌套未登录词切分,识别嵌套了人名、地名的复杂地名和机构名,如新出现了一所大学,名字中嵌套了城市名称,名称为辽宁科学技术大学;新建成了一所大厦,名为上海明珠大厦;
4)隐马尔科夫分词
对于一个中文字符串S,它的切分方式为:w1,w2,w3,……,wn,隐马尔可夫模型计算的就是字符串S被切分为w1,w2,w3,……,wn的概率是多大,其表达公式如下:
P(S)=P(w1w2……wn)
其中,P(w1w2……wn)表示符串S被切分为w1,w2,w3,……,wn的概率。
对于句子中词语每个词语wi,隐马尔可夫模型假定wi出现的概率与其前i-1个词语有关,并且概率值使用如下条件概率公式计算:
更进一步的,将以上公式演变为如下的形式:
其中,wi-1表示第i-1个词汇,i可以取1至n中的任一整数,n表示中文字符串S被切割后得到的分词的总数。
4.1)判断POI名称中是否可以与歧义词库中的词进行匹配。歧义词库为较为重要的词组,但又不符合分词逻辑,如计算机组成原理;
4.2)对原子切分后的词进行状态判定,根据每个词的状态进行词语的初步合并:
4.2.1)判断每个词在核心词库中的状态,若为1,认为不是词,可以继续与其他相邻字符形成词组;若为2,认为是词,但仍可以继续与其他字符形成词组;若为3,认为是词,立即停止与其他字符形成词组。
4.2.2)利用词关联表(记录词典中词与词之间的关联数据,包括起始词、终止词、词频),选择最优的分词组合。例如,“商品和服务“,对其分词可以得到”商品、和、服务“,“商品、和服、务”两种组合,应该选取前者。
3)利用英文词库进行英文单词合并;
4)利用简繁词库进行汉字简繁体标注;
4.3)完成精准分词
1)利用数字词库进行数字合并;
2)利用人名词库进行人名识别及分词合并,包括亚洲人名识别、世界人名识别、人名歧义处理;
3)将自定义词库与核心词库内容进行比对,如果核心词库中不存在该词,则将该词加载到核心词库中;如果存在该词,则使用新词的词性和词频替换原有的词性和词频。
如图2所示中文地址的分词流程可知,本申请实施例中通过对输入词依次进行原子切分、简单未登录词切分、嵌套未登录词切分和隐马尔科夫分词,最终得到分词结果。
步骤103、基于预设最大熵标注模型,分别从L个备选地址词性中确定所述分词结果中每一个分词对应的词性,其中,所述L个备选地址词性与L个地址信息等级对应,L为大于1的整数。
在具体实施中,本步骤利用预设最大熵标注模型对待识别地址信息中的每一个分词的词性加上标注,便可以确定该分词属于哪一个地址信息等级对应的地址自信息。这样,在确定每一个分词对应的地址信息等级之后,可以根据地址信息等级的顺序对待识别地址信息中的分词进行排序,已得到统一命名标准的目标地址信息。上述词性标注是自然语言处理领域的基础,也是机器翻译、信息检索等应用中的一个不可缺少的环节,在此不作具体阐述。
在具体实施中,上述基于预设最大熵标注模型,分别从L个备选地址词性中确定所述分词结果中每一个分词对应的词性,可以理解为:利用预设最大熵标注模型,对所述分词结果中每一个分词分别进行词性类别标注,以确定所述分词结果中每一个分词对应的词性,其中,所述词性类别标注的标注结果为L个备选地址词性中的任一个。
当然,在具体实施中,上述基于预设最大熵标注模型,分别从L个备选地址词性中确定所述分词结果中每一个分词对应的词性,也可以对所述分词结果中的一部分分词一一进行词性类别标注,而将另一部分分词标注为其他词性的分词,例如:假设L等于11,对于表1中的11级地址,在进行词性标注的过程中,可以仅标注前8级地址子信息对应的词性类别,而对于第9级至第11级的地址子信息可以共同标注为“其他”类别。
所述预设最大熵标注模型中,熵的概念最早出现于热力学中,后来香农首次在信息论中使用了信息熵的概念。信息熵用来表示对不确定性的度量,不确定性越大,熵就越大。设随机变量X,它的概率分布为P(x),它的熵H(X)的定义表示为以下公式:
H(X)=-∑xP(X)logP(X)
其中,∑xP(X)logP(X)表示对于全部随机变量x,求取P(X)logP(X)的和。
随机变量X的熵随着它的分布变化而变化。当随机变量X的分布为某一定值时,它的熵为0;当它的分布为均匀分布时,它的熵为最大。
最大熵的数学模型如下:
其中,number(x,y)和number(x)分别表示样本(x,y)和(x)在总体样本D中出现的次数。
最大熵模型就是在满足所有约束的条件下且熵最大的模型,将模型中的不确定部分设为等可能(即熵最大)。最大熵模型可以自由地选择特征,通过约束条件的设置提高模型对已有数据的拟合程度,以及对未知数据的泛化能力。
而最大熵马尔科夫模型可以理解为对隐马尔科夫模型的一次扩展,同时引入最大熵模型,吸收和结合了两个模型的优势。在最大熵马尔科夫模型中,用一个概率分布代替隐马尔科夫模型中的两个概率分布,即状态转移概率分布和观测概率分布P(x|y)。其中的含义为在前一个状态为观测值为x的条件下,当前状态为y的概率。其中,表示当前状态y的前一个状态值。
进一步的,用估计的条件概率计算特征函数的期望Ep(f)的计算公式为:
本实施方式中,最大熵马尔科夫模型既克服了隐马尔科夫模型的观测序列条件独立假设,能够表达长距离的上下文依赖关系,也允许观测值取多维特征。无需定义状态转移概率P(y’|y)和观测概率P(x|y),直接对条件概率P(y’|x)建模。最大熵马尔科夫模型的学习过程就是求解最大熵模型参数的过程,模型的学习可以形式化为约束优化问题,进而转化为转换成在给定训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。基于最大熵马尔科夫模型的中文地址解析是一种统计学习方法,因此解析的一般过程是利用现有的地址标注语料训练出最大熵模型,然后利用该模型完成对未标注的地址进行解析标注。
步骤104、根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,其中,所述目标地址信息与预设地址信息结构匹配,所述预设地址信息结构包括L个地址信息等级,L为大于1的整数。
在具体实施中,通过确定地址信息中的每一个分词的词性,例如:某一词汇是省份的名称、另一词汇是城市的名称等,可以有助于理解地址信息中的每一个分词对应的地址信息等级,从而利用词性对各个分词进行解释标注,有利于按照该解释标注来理解待识别地址信息中的各个分词的含义,进而根据所述分词结果中每一个分词对应的词性及其对应的地址信息等级,将所述待识别地址信息转化为目标地址信息,可以使确定出的目标地址信息中的各个分词的排列顺序更加准确。
具体的,所述根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,可以理解为:根据所述分词结果中每一个分词对应的词性对该分词进行自然语言处理、特征词匹配等处理过程,并根据处理结果,确定所述每一个分词对应的地址信息等级,例如:在地址信息中的某一分词为湖南的情况下,可以确定该分词对应的地址信息等级为如表2中所示的1级;或者在检测到某一分词中包含“省”这一特征字符的情况下,可以确定该分词对应的地址信息等级为如表2中所示的1级。
这样,根据确定出的分词对应的地址信息等级,能够将所述分词结果中的各个分词按照各自对应的地址信息等级的顺序进行排列,例如:省份对应的分词的地址信息等级高于城市对应的分词的地址信息等级,从而将省份对应的分词排列于城市对应的分词之前。从而可以得出与预设地址信息结构匹配的目标地址信息。
本实施方式中,对于地址标注的方法上,区别于传统的隐马尔科夫模型,本文采取的最大熵马尔科夫模型是对隐马尔科夫模型的扩展,同时引入最大熵模型,吸收和结合了两个模型的优势,采用了最大熵马尔科夫模型的方案,解决了传统隐马尔科夫模型在地址标注上的解析性能问题以及无法适应复杂特征的问题。
作为一种可选的实施方式,在上述步骤104之前,本申请实施例提供的地址识别方法还包括:
基于所述分词结果中每一个分词对应的词性,确定所述待识别地址信息在预设概率有限状态机中的第一迁移概率;
所述根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,包括:
在所述第一迁移概率大于或等于预设阈值,或者所述待识别地址信息在所述预设概率有限状态机中迁移至终止节点的情况下,根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息。
在具体实施中,可以预先构建上述预设概率有限状态机,以利用预先构建的概率有限状态机来判断所述待识别地址信息为正确地址信息的概率。
具体的,概率有限状态机的构建过程可以包括以下步骤:
(1)变量提取和定义
构建有限状态机的状态节点集合Q={“开始”,“省份、直辖市”,“地级市”,“区县”,“乡镇、街道”,“道路、村落”,“POI”,“街道号、村组”,“详细地址”,“结束”},其中开始作为初始状态,结束作为终止状态;
构建有限状态机的输入集合∑={“某些省份”,“某些城市”,“某些区县”,“某些乡镇”,“某些村落”,“某些街道”,“某些道路”,“某些门牌号”,“某些POI”,“某些村组”,“某些详细地址”};
构建有限状态机的终止集合F={“某些门牌号”,“某些POI”,“某些村组”,“某些详细地址”}。
(2)确定迁移描述
迁移描述包括输入符号、输出符号、迁移条件和迁移动作,实现迁移的完整描述。完成迁移描述后,能够据此确定出概率有限状态机所对应的状态迁移图,例如:确定如图4所示的概率有限状态机模型中各个状态节点之间的连线。本发明设计的概率有限状态机为接受器,即没有输出的概率有限状态机。本发明的接受型概率有限状态机的数学模型如下:
概率有限状态机M用五元组表示:
M=(Q,∑,Δ,s0,F)
迁移路径的数学表达式为:令M=(Q,∑,Δ,s0,F)为一非确定型有限状态机。x∈∑是一输入字符串,s0,i1,s1,i2,…sn-1in,sn为字符串x在此概率有限状态机中的路径。如果对任一ij,1≤j≤n有ij∈∑∪{ε},n为输入词字符的个数,x等于i1,i2,…n-1,in组合成的字符串并且对任意1≤j≤n有sj∈Δ(si-1,ij),其中,ij表示:字符串x中的任意某一个字符。;{ε}表示:空输入;∑表示:输入有限集合
(3)确定迁移概率
确定迁移概率一般有三种方法:第一种是平均分配法,即根据状态迁出边的个数对概率总和“1”取平均值,平均分配给各边;第二种是依赖于POI数据的统计信息确定迁移概率;第三种方法依赖于专家和开发者的专业知和经验,所得的迁移概率是对用户使用频率的完美期望,获取成本较低。
本发明可以采用以上第二种方法,在建立隐马尔科夫模型的基础之上,通过统计POI数据和历史输入词进行计算,得到迁移概率。隐马尔科夫模型是对马尔科夫链的一个扩展:任何时刻t的状态St是不可见的,它的状态不能直接观察到,但能通过观测向量序列,得知隐马尔科夫模型在每个时刻t会输出一个符号Ot,而且Ot跟St相关。基于隐马尔科夫模型,计算某一个特定状态的序列S1,S2,S3,…产生输出符号O1,O2,O3,…的概率可以通过以下公式计算得到:
P(S1,S2,S3…,O1,O2O3,…)=∏tP(St|St-1)×P(Ot|St)
利用隐马尔科夫模型解决实际问题时,需要知道从前一个状态St-1进入当前状态St的概率P(St|St-1),其也称为转移概率,和每个状态St产生响应输出信号Ot的概率P(Ot|St),其也称为生成概率,以上两个概率作为隐马尔科夫模型的参数,需要进行训练并人工标记。在初始状态,我们将POI搜索系统中的大量(例如:6000万条)POI兴趣点的地址信息作为训练样本,采用期望最大化(Expectation Maximization,EM)算法进行训练,得到每条迁移边的概率。
例如:假设S1=地级市,S2=区县,S3=乡镇,S4=道路,S5=道路号,则确定出的概率有限状态机的架构如图4所示,其中概率有限状态机的迁移路径是所有元素的有限穷举集合。
另外,在构建上述概率有限状态机之后,可以利用上述概率有限状态机进行地址匹配。
具体的,字符串x被概率有限状态机接受表示为:令M=(Q,∑,Δ,s0,F)为一非确定型有限状态机,令x∈∑*,当且仅当在此有限状态机M中有某些针对x的路径并且这些路径的最终状态是F中的元素,我们称字符串x可被此有限状态机M接受。
本实施方式中,能够按照预设地址信息结构对应的地址命名规范,规定了一些标准的终止状态节点,而对于那些不以终止状态节点的结束输入词,则通过概率计算来判定是否为门牌地址;同时,对于那些输入词中间包含非8级地址的要素,可能是因错别字的原因没有识别出来,也可能是真实的非门牌地址信息,需要根据错别字纠错进一步判断来确定。
例如,当用户的输入词为“沈阳市浑南区桃仙镇机场路1号桃仙国际机场”时,概率状态机会按照“地级市—区县—乡镇--道路—道路号--POI”的状态迁移,到达终止节点,识别成功;当用户的输入词为“沈阳市浑南区桃仙镇机场路1号”时,概率状态机会按照“地级市—区县—乡镇--道路—道路号”的状态迁移,到达终止节点,识别成功;但是当用户输入词为“沈阳市浑南区桃仙镇机场路”时,无对应的终止节点,该结果是否可以采纳为一个正确的门址,需要进行概率计算来判定。
换而言之,在所述待识别地址信息在预设概率有限状态机中不能顺利迁移至终止节点的情况下,可以计算该待识别地址信息在预设概率有限状态机中的迁移概率,来确定待识别地址信息是否正确。
上述概率计算的具体过程如下:
对任意输入字符串x∈∑*,其长度为k。对应此字符串在概率有限状态机中的路径具有如下形式:t=s0,x1,q1…,qk-1,xk,qk。计算字符串x通过路径t的概率为:
例如:当用户输入词为“沈阳市浑南区桃仙镇机场路”时,q1与“沈阳市”对应,q2与“浑南区”对应,q3与“桃仙镇”对应,q4与“机场路”对,且该地址在概率有限状态机中的迁移概率可以通过以下公式计算得到:
基于上述迁移概率值4.8%不符合门牌地址的概率值,即4.8%小于所述预设阈值(例如:5%,该预设阈值的取值可以根据实际引用场景设定,在此不作具体限定)的迁移概率,可以判断该迁移概率对应的地址信息为“非门牌地址”,而是一条道路的地址信息。
在实施中,还存在输入词(即待识别地址信息)能够在预设概率有限状态机中迁移至终止节点,但是迁移概率很小的情况,此时,该输入词中可能存在分词顺序不正确或者存在错别字、重叠字等情况,据此可以对该输入词进行纠错处理。
可选地,所述确定所述待识别地址信息在预设概率有限状态机中的第一迁移概率之后,所述方法还包括:
在所述第一迁移概率小于所述预设阈值且所述待识别地址信息在所述预设概率有限状态机中迁移至终止节点的情况下,对所述待识别地址信息进行文字纠错处理;
基于所述分词结果中每一个分词对应的词性,确定纠错后的待识别地址信息在预设概率有限状态机中的第二迁移概率;
所述根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,包括:
在所述第二迁移概率大于或等于所述预设阈值的情况下,根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息。
在具体实施中,上述对所述待识别地址信息进行文字纠错处理,可以包括字符顺序纠错、错别字纠错等处理。
例如:当用户输入词为“沈阳市辽宁省浑南区桃仙镇机场路1号”时,q5与“机场路”对应,且该地址在概率有限状态机中的迁移概率可以通过以下公式计算得到:
以上概率值0.144%,远低于预设阈值,但是因为该路径最终迁移到终止节点,且路径中所有状态节点都是8级地址相关元素,因此判断此输入词是一个疑似正确的“门牌地址”。从而对该输入词“沈阳市辽宁省浑南区桃仙镇机场路1号”进行纠错,该纠错可以包括按照8级地址的等级从高到低的顺序对该地址中的各个分词进行重新排列,这样,可以在概率有限状态机中,按照8级地址的等级从高到低重新为输入词为“沈阳市辽宁省浑南区桃仙镇机场路1号”排序,得到“辽宁省沈阳市浑南区桃仙镇机场路1号”的新输入词,然后计算纠错后的输入词在预设概率有限状态机中的迁移状态和概率,确定出该“辽宁省沈阳市浑南区桃仙镇机场路1号”的新输入词可以迁移到终止节点,且迁移概率为1*0.8*0.4*0.2*1=6.4%,其大于预设阈值(5%),从而判断新输入词为正确的门牌地址。
再例如:当用户输入词为“沈阳市桃先国际机场浑南区桃仙镇机场路1号”时,识别结果为城市+其他+区县+道路+道路号,可以到达终止节点,但是其概率计算结果为:
以上概率值0.048%,远低于预设阈值概率值,迁移路径中存在与“其他”类型的地址子信息对应的状态节点,且“其他”状态节点前后的节点迁移概率为大概率事件,分别为因此判断此输入词可能是一个存在错别字的“门牌地址”,需要进行错别字纠错后在进行二次状态迁移判断。
可选的,错别字纠错过程中,可以根据汉语拼音规则,将根据同音的字符进行错别字纠正处理。
例如:错别字纠错过程可以包括以下步骤:
(1)根据城市区划代码、汉语拼音序列,查找与拼音序列完全匹配的纠错词对象;
(2)按照搜索次数对纠错词对象进行排序,选取搜索次数最高的对象Q作为纠错比对对象;
(3)按照如下方法计算输入词q的纠错权重rank(q),并与对象Q的纠错权重比对(其中,Q的搜索次数,记为rank(Q)),若rank(q)/rank(Q)<0.5,则将对象Q的纠错词属性以字符串形式返回给调用方;否则不对输入词纠错。
纠错权重计算公式为:Rank(q)=Num*(1+Len/10+IsStr)
其中,Num表示:输入词在日志中的记录次数;Len表示:输入词命中纠错记录的前提下,查询词长度;IsStr表示:输入词是中文还是拼音,例如:IsStr取0则表示是中文,IsStr取1则表示是拼音。
例如:针对用户输入词“沈阳市桃先国际机场浑南区桃仙镇机场路1号”进行纠错后,识别结果变为:城市+区县+POI+道路+道路号,可以到达终止节点,其概率计算结果为:
以上概率值0.48%,远低于预设阈值概率值,但是因为该路径最终迁移到终止节点,且迁移路径中所有状态节点都是8级地址相关元素,因此判断此输入词是一个疑似正确的“门牌地址”。在概率有限状态机中,按照8级地址的等级从高到低重新为输入词“沈阳市浑南区桃仙镇机场路1号桃仙国际机场”进行排序,得到“辽宁省沈阳市浑南区桃仙镇机场路1号”的新输入词,计算该输入词的迁移状态和概率,可以迁移到终止状态且概率为1*0.8*0.4*0.2*1*1=6.4%,最终将重新排序后的新输入词判断为正确的门牌地址。
本实施方式中,对于门牌地址的识别,区别于根据确定型有限状态机的传统做法,本发明采用的是基于非确定型有限状态机(概率有限状态机)的方法,实现了对于错别字、用户输入不标准进行有效识别的效果。
为了便于说明,以本申请实施例提供的地址识别方法应用于如图3所示地址识别装置为例,对本申请实施例提供的地址识别方法进行举例说明:
其中,图3所示地址识别装置包括:平均感知器训练模块(用于训练预设平均感知器模型的模块)、隐马尔科夫分词模块(用于执行预设隐马尔科夫分词模型功能的模块)、最大熵标注模块(用于执行预设最大熵标注模型功能的模块)、概率有限状态机模块(用于执行预设概率有限状态机模型功能的模块);所述平均感知器训练模块,负责完成语料库的生成;隐马尔科夫分词模块通过构建11级地址要素模型,对输入词进行中文分词;然后利用最大熵标注模块进行类型标注;最后,利用最大熵标注模块的输出结果,作为概率有限状态机的输入条件进行十一级地址的最终识别判断。
值得说明的是,如图3所示实施例中,由于基于最大熵隐马尔科夫模型的十一级地址识别系统通常都与地理编码系统联合使用,因此主要涉及的网元还包括地理编码系统,这样,利用该地址编码系统能够将目标地址翻译成地图上的一个坐标位置,以在地图上显示该坐标位置。
在如图3所示的地址识别装置执行本发明实施例提供的地址识别方法的过程中,如图3所示的地址识别装置中各个模块执行以下步骤:
步骤一,通过平均感知器训练模块,经过参数融合计算、模型压缩、和增量模型计算等过程,获得分词及标注模块用到的语料库;
步骤二,隐马尔科夫分词模块根据平均感知器训练模块得到的大规模语料库,经过原子切分、简单未登录词切分、嵌套未登录词切分、隐马尔科夫分词,获得地址分词结果;
步骤三,利用最大熵标注模块为每一个分词结果标注词性类别,包括除了9级地址模型中的类别外,其余未识别出来的词定义为“其他;
步骤四,在构造好的概率有限状态机节点上进行跃迁,迁移的源状态和输入符号唯一确定了迁移概率的取值,最后综合所有跃迁概率计算输入词为正确地址的可能性,对于某一节点前后节点的迁移概率都较大、而与自己相关的迁移概率较小的情况,考虑该状态节点存在错别字情况进行纠错后的二次识别。
为了便于理解,下面以用户利用如图3所示的地址识别装置搜索“沈阳市桃先国际机场浑南区桃仙镇机场路1号”为例,具体说明本发明实施例提供的地址识别方法的流程:
步骤1,用户打开地图APP,设置搜索查询条件;
步骤2,用户查询十一级地址数据,请求地理编码引擎;
步骤3,地理编码引擎进行参数校验,判断搜索期望结果所在城市;
本步骤中,在上述查询条件中不包括城市信息的情况下,地理编码引擎可以获取用户所在的当前位置或常驻位置,从而判断搜索期望结果所在城市为用户当前位置或常驻位置所在的城市;或者,地理编码引擎可以判断搜索期望结果所在城市在预先设置的地址区域内。这样,在用户输入的查询条件不完整的情况下,地理编码引擎可以根据实际情况,将上述查询条件的搜索范围限定为目标城市,以缩小地址查询范围。例如:用户在搜索某一基站地址信息时,可以在当前城市范围内搜索基站地址信息,而不对全国范围内的进展进行搜索。
值得说明的是,在上述查询条件包括了需要搜索的地址所在城市的情况下,可以不执行上述步骤3,在此不作具体限定。
步骤4,地理编码引擎请求隐马尔科夫分词模块,传入参数包括用户输入词、搜索期望结果所在城市;
步骤5,隐马尔科夫分词模块进行分词处理;
步骤6,请求最大熵标注模块,对初步分词结果进行词性标注;
步骤7,根据最大熵马尔科夫模型,完成分词的词性标注;
步骤8,请求概率有限状态机模块,输入条件为分词的标注结果;
步骤9,概率有限状态机模块进行迁移判断,可以正确到达终止节点;
步骤10,概率有限状态机模块进行概率计算,并结合概率计算结果、状态节点得出需要进行错别字纠错的结论;
步骤11,对“其他”节点中内容进行同音错别字纠错,将“其他”类型的分词“桃先国际机场”更正为“仙桃国际机场”;
步骤12,返回门牌地址识别结果给地理编码引擎;
步骤13,地理编码引擎返回给地图APP;
步骤14,地图APP软件利用匹配结果,在地图上展示门牌地址识别结果的地址坐标。
本发明实施例提供的地址识别方法能够解决当前地址识别方法及系统无法准确识别全国各省十一级地址数据的问题,具体的,本发明实施例中在隐马尔科夫模型的基础上引入最大熵理论,发明基于最大熵马尔科夫模型的十一级地址识别方法,既克服了隐马尔科夫模型的观测序列条件独立假设,能够表达长距离的上下文依赖关系,也允许观测值取多维特征,解决全国各省在没有统一规范的地理编码和命名规范的前提下,实现地址数据的十一级标准化,保证移动公司业务顺利开展。
请参阅图6,是本发明实施例提供的一种地址识别装置的结构图,如图6所示,该地址识别装置600,包括:
接收模块601,用于接收待识别地址信息;
第一分词模块602,用于对所述待识别地址信息进行分词,得到分词结果;
第一确定模块603,用于基于预设最大熵标注模型,分别从L个备选地址词性中确定所述分词结果中每一个分词对应的词性,其中,所述L个备选地址词性与L个地址信息等级对应,L为大于1的整数;
转化模块604,用于根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,其中,所述目标地址信息与所述预设地址信息结构匹配,所述预设地址信息结构包括所述L个地址信息等级。
可选的,地址识别装置600还包括:
第二确定模块,用于基于所述分词结果中每一个分词对应的词性,确定所述待识别地址信息在预设概率有限状态机中的第一迁移概率;
所述转化模块,具体用于:
在所述第一迁移概率大于或等于预设阈值的情况下,根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息。
可选的,地址识别装置600还包括:
纠错模块,用于在所述第一迁移概率小于所述预设阈值,且所述待识别地址信息在所述预设概率有限状态机中迁移至终止节点的情况下,对所述待识别地址信息进行文字纠错处理;
迁移模块,用于基于所述分词结果中每一个分词对应的词性,确定纠错后的待识别地址信息在预设概率有限状态机中的第二迁移概率;
所述转化模块604,具体用于:
在所述第二迁移概率大于或等于所述预设阈值的情况下,根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息。
可选的,第一确定模块603具体用于:
利用预设最大熵标注模型,对所述分词结果中每一个分词分别进行词性类别标注,以确定所述分词结果中每一个分词对应的词性,其中,所述词性类别标注的标注结果为L个备选地址词性中的任一个。
可选的,地址识别装置600还包括:
第二获取模块,用于获取地址样本集,其中,所述地址样本集中包括至少两个地址样本信息;
第二分词模块,用于基于预设平均感知器模型,对所述至少两个地址样本信息进行分词,得到语料库;
所述第一分词模块602,具体用于:
基于预设隐马尔科夫分词模型和所述语料库,对所述待识别地址信息进行目标分词,得到分词结果,其中,所述目标分词包括以下至少一项:原子切分、简单未登录词切分、嵌套未登录词切分和隐马尔科夫分词。
可选的,所述预设平均感知器模型基于以下过程得到:
获取训练样本数据;
将所述训练样本数据划分为N个不相交的样本子集;
分别基于N个所述样本子集训练得到N个第一感知器算法模型;
将所述N个第一感知器算法模型融合,得到所述预设平均感知器模型;
或者,
获取训练样本数据;
将所述训练样本数据划分为N个不相交的样本子集;
采用所述N个样本子集对N个感知器算法模型中的参数进行迭代参数融合,以得到所述预设平均感知器模型;
或者,
获取训练样本数据;
基于所述训练样本数据训练得到第二感知器算法模型;
获取样本增量数据;
基于所述样本增量数据训练得到第三感知器算法模型;
将所述第二感知器算法模型和所述第三感知器算法模型融合,得到所述预设平均感知器模型;
或者,
获取训练样本数据;
获取基于所述训练样本数据训练得到的第四平均感知器模型,以及获取模型压缩比例;
确定所述第四平均感知器模型中的每一个特征参数的权重;
基于所述模型压缩比例,确定第一阈值;
将所述第四平均感知器模型中权重小于或等于所述第一阈值的特征参数删除,以得到所述预设平均感知器模型。
本发明实施例提供的地址识别装置600能够实现图1所示的方法实施例实现的各个过程,且能够取得相同的有益效果,为避免重复,这里不再赘述。
可选的,如图7所示,本发明实施例还提供一种电子设备700,包括处理器701,存储器702,存储在存储器702上并可在所述处理器701上运行的程序或指令,该程序或指令被处理器701执行时实现如图1所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现如图1所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种地址识别方法,其特征在于,包括:
接收待识别地址信息;
对所述待识别地址信息进行分词,得到分词结果;
基于预设最大熵标注模型,分别从L个备选地址词性中确定所述分词结果中每一个分词对应的词性,其中,所述L个备选地址词性与L个地址信息等级对应,L为大于1的整数;
根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,其中,所述目标地址信息与预设地址信息结构匹配,所述预设地址信息结构包括所述L个地址信息等级。
2.根据权利要求1所述的方法,其特征在于,所述根据所述分词结果中每一个分词对应的词性,确定目标地址信息之前,所述方法还包括:
基于所述分词结果中每一个分词对应的词性,确定所述待识别地址信息在预设概率有限状态机中的第一迁移概率;
所述根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息信息转化为目标地址信息,包括:
在所述第一迁移概率大于或等于预设阈值,或者所述待识别地址信息在所述预设概率有限状态机中迁移至终止节点的情况下,根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息。
3.根据权利要求2所述的方法,其特征在于,所述确定所述待识别地址信息在预设概率有限状态机中的第一迁移概率之后,所述方法还包括:
在所述第一迁移概率小于所述预设阈值,且所述待识别地址信息在所述预设概率有限状态机中迁移至终止节点的情况下,对所述待识别地址信息进行文字纠错处理;
基于所述分词结果中每一个分词对应的词性,确定纠错后的待识别地址信息在预设概率有限状态机中的第二迁移概率;
所述根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,包括:
在所述第二迁移概率大于或等于所述预设阈值的情况下,根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取地址样本集,其中,所述地址样本集中包括至少两个地址样本信息;
基于预设平均感知器模型,对所述至少两个地址样本信息进行分词,得到语料库;
所述对所述待识别地址信息进行分词,得到分词结果,包括:
基于预设隐马尔科夫分词模型和所述语料库,对所述待识别地址信息进行目标分词,得到分词结果,其中,所述目标分词包括以下至少一项:原子切分、简单未登录词切分、嵌套未登录词切分和隐马尔科夫分词。
5.根据权利要求4所述的方法,其特征在于,所述预设平均感知器模型基于以下过程得到:
获取训练样本数据;
将所述训练样本数据划分为N个不相交的样本子集;
分别基于N个所述样本子集训练得到N个第一感知器算法模型;
将所述N个第一感知器算法模型融合,得到所述预设平均感知器模型;
或者,
获取训练样本数据;
将所述训练样本数据划分为N个不相交的样本子集;
采用所述N个样本子集对N个感知器算法模型中的参数进行迭代参数融合,以得到所述预设平均感知器模型;
或者,
获取训练样本数据;
基于所述训练样本数据训练得到第二感知器算法模型;
获取样本增量数据;
基于所述样本增量数据训练得到第三感知器算法模型;
将所述第二感知器算法模型和所述第三感知器算法模型融合,得到所述预设平均感知器模型;
或者,
获取训练样本数据;
获取基于所述训练样本数据训练得到的第四平均感知器模型,以及获取模型压缩比例;
确定所述第四平均感知器模型中的每一个特征参数的权重;
基于所述模型压缩比例,确定第一阈值;
将所述第四平均感知器模型中权重小于或等于所述第一阈值的特征参数删除,以得到所述预设平均感知器模型。
6.一种地址识别装置,其特征在于,包括:
接收模块,用于接收待识别地址信息;
第一分词模块,用于对所述待识别地址信息进行分词,得到分词结果;
第一确定模块,用于基于预设最大熵标注模型,分别从L个备选地址词性中确定所述分词结果中每一个分词对应的词性,其中,所述L个备选地址词性与L个地址信息等级对应,L为大于1的整数;
转化模块,用于根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息,其中,所述目标地址信息与所述预设地址信息结构匹配,所述预设地址信息结构包括所述L个地址信息等级。
7.根据权利要求6所述的装置,其特征在于,还包括:
第二确定模块,用于基于所述分词结果中每一个分词对应的词性,确定所述待识别地址信息在预设概率有限状态机中的第一迁移概率;
所述转化模块,具体用于:
在所述第一迁移概率大于或等于预设阈值的情况下,根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息。
8.根据权利要求7所述的装置,其特征在于,还包括:
纠错模块,用于在所述第一迁移概率小于所述预设阈值,且所述待识别地址信息在所述预设概率有限状态机中迁移至终止节点的情况下,对所述待识别地址信息进行文字纠错处理;
迁移模块,用于基于所述分词结果中每一个分词对应的词性,确定纠错后的待识别地址信息在预设概率有限状态机中的第二迁移概率;
所述转化模块,具体用于:
在所述第二迁移概率大于或等于所述预设阈值的情况下,根据所述分词结果中每一个分词对应的词性,将所述待识别地址信息转化为目标地址信息。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的地址识别方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的地址识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111240034.4A CN116028589A (zh) | 2021-10-25 | 2021-10-25 | 一种地址识别方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111240034.4A CN116028589A (zh) | 2021-10-25 | 2021-10-25 | 一种地址识别方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116028589A true CN116028589A (zh) | 2023-04-28 |
Family
ID=86072867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111240034.4A Pending CN116028589A (zh) | 2021-10-25 | 2021-10-25 | 一种地址识别方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116028589A (zh) |
-
2021
- 2021-10-25 CN CN202111240034.4A patent/CN116028589A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329467B (zh) | 地址识别方法、装置、电子设备以及存储介质 | |
CN108388559B (zh) | 地理空间应用下的命名实体识别方法及系统、计算机程序 | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
JP2023529939A (ja) | マルチモーダルpoi特徴の抽出方法及び装置 | |
CN110781670B (zh) | 基于百科知识库和词向量的中文地名语义消歧方法 | |
CN111666427A (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及系统 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN112560478A (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN115081437B (zh) | 基于语言学特征对比学习的机器生成文本检测方法及系统 | |
CN113486667A (zh) | 一种基于实体类型信息的医疗实体关系联合抽取方法 | |
CN116991869A (zh) | 一种基于nlp语言模型自动生成数据库查询语句的方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN115017425B (zh) | 地点检索方法、装置、电子设备以及存储介质 | |
CN111950280A (zh) | 地址匹配方法及装置 | |
CN111177402A (zh) | 基于分词处理的评价方法、装置、计算机设备及存储介质 | |
Zhang et al. | W-TextCNN: A TextCNN model with weighted word embeddings for Chinese address pattern classification | |
CN114091454A (zh) | 一种互联网文本中地名信息提取及空间定位方法 | |
CN116662583B (zh) | 一种文本生成方法、地点检索方法及相关装置 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN116431746A (zh) | 基于编码库的地址映射方法、装置、电子设备及存储介质 | |
CN115186670B (zh) | 一种基于主动学习的领域命名实体识别方法及系统 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |