CN116821271A - 一种基于音形码的地址识别和规范化方法及系统 - Google Patents
一种基于音形码的地址识别和规范化方法及系统 Download PDFInfo
- Publication number
- CN116821271A CN116821271A CN202311099011.5A CN202311099011A CN116821271A CN 116821271 A CN116821271 A CN 116821271A CN 202311099011 A CN202311099011 A CN 202311099011A CN 116821271 A CN116821271 A CN 116821271A
- Authority
- CN
- China
- Prior art keywords
- address
- code
- entity
- candidate address
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 68
- 238000012937 correction Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 240000004282 Grewia occidentalis Species 0.000 claims description 4
- 238000011425 standardization method Methods 0.000 abstract description 2
- 239000003337 fertilizer Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- RKTYLMNFRDHKIL-UHFFFAOYSA-N copper;5,10,15,20-tetraphenylporphyrin-22,24-diide Chemical compound [Cu+2].C1=CC(C(=C2C=CC([N-]2)=C(C=2C=CC=CC=2)C=2C=CC(N=2)=C(C=2C=CC=CC=2)C2=CC=C3[N-]2)C=2C=CC=CC=2)=NC1=C3C1=CC=CC=C1 RKTYLMNFRDHKIL-UHFFFAOYSA-N 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 244000234181 Syzygium samarangense Species 0.000 description 1
- 235000012096 Syzygium samarangense Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于音形码的地址识别和规范化方法及系统,所述方法包括根据采集的地址数据,构建行政区域地名的DFA模型;分别对输入的文本内容进行DFA模型匹配识别和NER识别,对应获取候选地址实体及其位置索引;对DFA模型匹配识别的候选地址实体及其位置索引与NER识别的候选地址实体及其位置索引进行地址纠错和规范化,获得过滤后的候选地址实体及其对应的规范化地址;根据过滤后的候选地址实体及其对应的规范化地址,判断文本内容中的地址数据是否有误,并输出地址结果。能够对地址进行识别,并进行行政区域划分的纠错及规范化输出。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于音形码的地址识别和规范化方法及系统。
背景技术
在日常生活或工作中会面临许多的地址数据,但是人为输入或者通过OCR等技术识别出来的地址经常伴随着错别字或者缩写的情况,再加上地名丰富,特别是涉及到社区、村、小区等地名时经常会出现同名或同音的情况,这时如果不对错误地址或者缩写地址进行规范化的操作,会导致这些地址数据在后续工作中难以得到有效的利用。
针对该问题,需要基于标准的行政区域名称对识别出来的地址进行纠错以及规范化的操作。例如,我们需要将“安徽合肥蜀山区”识别并规范化为“安徽省合肥市蜀山区”,将“安徽无湖”识别并纠错规范化为“安徽省芜湖市”,以上两个例子是将缩写或者错别地址进行纠错及规范化;同时有时候还需要对一些重名的地点进行精确识别及规范化的操作,比如“江苏通州”、“北京通州”识别并规范化为“江苏省南通市通州区”,“北京市通州区”。
而现有对地址识别的技术主要是通过词典匹配以及命名实体识别(NER)技术,但是这些技术都没有对识别出来的地址数据进行纠错和规范化操作,识别出来的地名跟标准化的行政区域名称也不一定能对应上。
发明内容
本发明目的在于提供一种基于音形码的地址识别和规范化方法及系统,能够对地址进行识别,并进行行政区域划分的纠错及规范化输出。
为实现上述目的,本发明提供一种基于音形码的地址识别和规范化方法,包括:
根据采集的地址数据,构建行政区域地名的DFA模型;
分别对输入的文本内容进行DFA模型匹配识别和NER识别,对应获取候选地址实体及其位置索引;
对DFA模型匹配识别的候选地址实体及其位置索引与NER识别的候选地址实体及其位置索引进行地址纠错和规范化,获得过滤后的候选地址实体及其对应的规范化地址;
根据过滤后的候选地址实体及其对应的规范化地址,判断文本内容中的地址数据是否有误,并输出地址结果。
进一步的,所述根据采集的地址数据,构建行政区域地名的DFA模型,包括:
将采集的地址数据处理成标准形式的字典数据,并添加到第一数组列表中;
遍历所述第一数组列表,按照行政区域地名划分的五个维度将所有地名及简称进行合并,生成一个地名字典;
根据五个维度的地名字典,构建行政区域地名的DFA模型,形成字典树;
其中,所述标准形式的字典数据包括统计用区划代码和规范化地址。
进一步的,在遍历所述第一数组列表的同时,将所述规范化地址和所述统计用区划代码分别作为关键字和值,构建映射字典;
建立音形码模型,利用音形码模型对规范化地址进行音形码编码,以构建规范化地址的音形码字典。
进一步的,对输入的文本内容进行DFA模型的匹配识别,获取DFA模型匹配识别的候选地址实体及其位置索引,包括:
根据DFA模型对文本内容进行最大匹配,生成匹配结果,获取DFA模型匹配识别的候选地址实体及其位置索引;
在最大匹配过程中,利用音形码模型对文本内容的每个汉字进行音形码编码,转换成字符序列;对待匹配的文本内容中的汉字和字典树中的字符进行单字符音形码相似度计算;当单字符音形码相似度大于第一设定阈值时,则单字符匹配成功。
进一步的,利用音形码模型对文本内容的每个汉字进行音形码编码,转换成字符序列,包括:
根据替代规则,将文本内容的每个汉字对应的音码部分和字形部分,按顺序对应转换生成字符序列;
其中,所述音形码模型包括音码和字形码;
所述音码包括韵母、声母、补码和声调,所述字形码包括结构编码、四角编码和笔画数。
进一步的,根据DFA模型对文本内容进行最大匹配,包括:
遍历待匹配的文本内容,获取单个汉字字符及其对应的位置索引,并判断当前字符是否为DFA模型匹配项的起点:
若为起点,则继续向下遍历文本内容的字符,并与字典树的下一层进行匹配;如果能匹配则继续向下对文字内容的字符和字典树下一层进行遍历,并在匹配过程中判断该字符是否为地名中的最后一个字;
若是,则保留匹配获得的字符串的起始位置索引,并使用DFA模型的最大匹配,继续判断下一层是否能够匹配;
若能匹配,则继续进行上述的遍历操作,直至匹配到当前字符为地名中的最后一个字时,停止匹配并返回匹配结果;
若不能匹配,则中止遍历操作,返回匹配结果并选择最长匹配的字符串及其位置索引作为最终结果,即DFA模型匹配识别获得的候选地址实体及其位置索引。
进一步的,对待匹配的文本内容中的汉字和字典树中的字符进行单字符音形码相似度计算,包括:
通过下式计算文本内容中汉字与字典树中字符的单字符音形码相似度:
式中,表示文本内容中汉字与字典树中字符的单字符音形码相似度,P表示文本内容中汉字与字典树中字符的音码相似度,S表示文本内容中汉字与字典树中字符的形码相似度,λ表示音码相似度的权重值;
其中,通过下式计算文本内容中汉字与字典树中字符的音码相似度:
式中,分别表示音码中的韵母、声母、补码、声调的相似度;
通过下式计算文本内容中汉字与字典树中字符的形码相似度:
式中,分别表示结构编码和四角编码的相似度,分别表示文本内容中汉字与字典树中字符的笔画数。
进一步的,对DFA模型匹配识别的候选地址实体及其位置索引与NER识别的候选地址实体及其位置索引进行地址纠错和规范化,获得过滤后的候选地址实体及其对应的规范化地址,包括:
制定去重和拼接规则,对DFA模型匹配识别的候选地址实体和NER识别的候选地址实体进行去重和拼接,获得处理后的候选地址实体;
在去重和拼接过程中,对DFA模型匹配识别的候选地址实体进行优先保留,同时保留匹配结果中候选地址实体对应的规范化地址,作为DFA模型匹配识别的标准候选地址实体及其对应的规范化地址;
若处理后的候选地址实体中存在只属于NER识别获得的候选地址实体,则基于音形码模型,计算只属于NER识别的候选地址实体与音形码字典中规范化地址的相似度;
若只属于NER识别的候选地址实体与音形码字典中规范化地址的音形码相似度大于第二设定阈值时,则保留当前处理后的候选地址实体和对应的规范化地址,作为NER识别的标准候选地址实体及其对应的规范化地址;
将DFA模型匹配识别的标准候选地址实体及其对应的规范化地址与NER识别的标准候选地址实体及其对应的规范化地址,分别对应进行合并,获得过滤后的候选地址实体及其对应的规范化地址。
进一步的,计算只属于NER识别的候选地址实体与音形码字典中规范化地址的相似度,包括:
采用字符串编辑距离相似度及音形码编辑距离相似度两种方式加权合并,通过下式计算只属于NER识别的候选地址实体与音形码字典中规范化地址的相似度:
式中,表示只属于NER识别的候选地址实体与音形码字典中规范化地址的相似度,/>表示只属于NER识别的候选地址实体与音形码字典中规范化地址的字符串编辑距离相似度,/>表示只属于NER识别的候选地址实体与音形码字典中规范化地址的音形码编辑距离相似度;
其中,所述字符串编辑距离相似度和所述音形码编辑距离相似度均基于编辑距离相似度进行计算,通过下式计算所述编辑距离相似度:
式中,表示所述编辑距离的相似度,/>表示A、B两个字符串的编辑距离,/>分别表示A、B两个字符串的长度,其中,A、B分别表示只属于NER识别的候选地址实体与音形码字典中规范化地址的字符串。
进一步的,根据过滤后的候选地址实体和对应的规范化地址,判断文本内容中的地址数据是否有误,并输出地址结果,包括:
判断过滤后的候选地址实体和对应的规范化地址是否相同:
若相同,则说明文本内容中的地址数据无误,直接输出过滤后的候选地址实体及其位置索引;
若不同,则说明文本内容中的地址数据不规范或出现错别字,输出过滤后的候选地址实体及其索引位置、以及对应的规范化地址。
进一步的,若文本内容中的地址数据不完整或输出的候选地址实体需要自动生成或需要输出结构化的地址结果,在输出地址结果时,利用映射字典获取过滤后的候选地址实体对应的统计用区划代码;
根据对应的统计用区划代码,在第一数组列表中获取相对应的字典数据,并按照行政区域划分数据输出结构化的地址数据。
基于同一发明构思,本发明提供一种基于音形码的地址识别和规范化系统,包括:构建单元、识别单元、规范单元和判断单元,
所述构建单元,用于根据采集的地址数据,构建行政区域地名的DFA模型;
所述识别单元,用于分别对输入的文本内容进行DFA模型匹配识别和NER识别,对应获取候选地址实体及其位置索引;
所述规范单元,用于对DFA模型匹配识别的候选地址实体及其位置索引与NER识别的候选地址实体及其位置索引进行地址纠错和规范化,获得过滤后的候选地址实体和对应的规范化地址;
所述判断单元,根据过滤后的候选地址实体和对应的规范化地址,判断文本内容中的地址数据是否有误,并输出地址结果。
基于同一发明构思,本发明还提供一种电子设备,包括:存储器、处理器及存储于存储器上并在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的一种基于音形码的地址识别和规范化方法。
基于同一发明构思,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令执行时实现前述的一种基于音形码的地址识别和规范化方法。
本发明的技术效果和优点:1、本发明通过DFA最大匹配算法和NER命名实体识别的方式对输入文本进行地名提取并进行过滤去重,提升地名识别的召回率和准确率;
2、本发明在对地址规范化的过程中引入音形码相似度,对候选地址实体与音形码字典中的标准规范化地址实体进行相似度比较,从而达到对候选实体不准确、有缺失等情况下进行地址的纠错和补充,相较于传统文本纠错方式更具地址识别和纠错这一领域性特性,并且识别纠错过程主要基于标准词库的匹配的比较,能够有效提升在地址识别和纠错的效率及精准率;
3、本发明提出一种基于音形码相似度的DFA模糊匹配,解决DFA匹配仅仅只能完全匹配词库中的词的缺陷,对于拼写输入错误的词DFA模糊匹配也具有召回纠正的作用。
4、本发明采用地址按照省、市、县/区、乡镇/街道、社区居委会/村委会五层级的行政区域结构化数据,能够使得最终识别出来的地址灵活的应用于各种地址填槽的场景,例如单证识别出来的地址自动填入表单。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于音形码的地址识别和规范化方法的步骤流程图;
图2为本发明实施例一种基于音形码的地址识别和规范化方法的详细步骤流程图;
图3为本发明实施例中音形码模型的结构示意图;
图4为本发明实施例中汉字“琅”对应的音形码编码结构示意图;
图5为本发明实施例一种基于音形码的地址识别和规范化系统的结构示意图;
图6为本发明实施例一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决现有技术的不足,本发明公开了一种基于音形码的地址识别和规范化方法,如图1和图2所示,包括以下步骤:
基于行政区域划分数据进行省、市、县/区、乡镇/街道、社区居委会/村委会数据的采集。
步骤S1:对采集的数据进行处理:根据采集的地址数据,构建行政区域地名的DFA模型,具体包括:
将采集的地址数据处理成标准形式的字典数据,并添加到第一数组列表中;其中,所述标准形式的字典数据包括统计用区划代码和规范化地址。
即,在具体的实施例中,将采集的每个地区的地址数据都处理成一个含有省、市、县/区、乡镇/街道、社区居委会/村委会信息的字典数据。
例如,将“安徽省合肥市瑶海区明光路街道填海巷社区”处理成如下形式:
{"统计用区划代码":"340102001001",
"规范化地名":"安徽省合肥市瑶海区明光路街道填海巷社区(居委会)",
"省级":["安徽省","安徽","皖"],
"市级":["合肥市","合肥"],
"区/县":["瑶海区","瑶海"],
"乡镇/街道":["明光路街道","明光路"],
"居/村委会":["填海巷社区(居委会)","填海巷社区","填海巷"]}。
其中,统计用区划代码表示该地区的唯一编码,在采集时能够直接获取;五级行政区域后面对应的数组中第一个表示标准的全称,其余的是缩写或者简称。
当地址数据没有具体到社区或者村委时,比如只定位到市级,例如“安徽省合肥市”,在处理的时只需要处理到“市级”,并且其他剩下的行政级别区域设置为空,结果如下所示:
{"统计用区划代码":"340100000000",
"规范化地名":"安徽省合肥市",
"省级":["安徽省","安徽","皖"],
"市级":["合肥市","合肥"],
"区/县":"",
"乡镇/街道":"",
"居/村委会":""}。
需要注意的是,此时“统计用区划代码”与“安徽省合肥市瑶海区明光路街道填海巷社区”的“统计用区划代码”并不一样,两个“统计用区划代码”表示不同的地区代码。
特别的,对于直辖市区域来说,其省级为该直辖市的市级,市级统一标注为“直辖市”便于后续区分处理。例如“北京市朝阳区”,处理成如下结构:
{"统计用区划代码":"110105000000",
"规范化地名":"北京市朝阳区",
"省级":["北京市","北京","京"],
"市级":"直辖市",
"区/县":["朝阳区","朝阳"],
"乡镇/街道":"",
"居/村委会":""}。
最后,将处理好的所有地区的地址数据添加至第一数组列表中。
遍历第一数组列表,按照行政区域地名划分的五个维度(省、市、区/县、乡镇/街道、居/村委会),将所有地名及简称进行合并,生成一个地名字典。例如:
{"province":["皖","安徽","安徽省",...],
"city":["安庆","安庆市",...],
"county":["朝阳","朝阳区",...],
"township":["明光路","明光路街道",...],
"village":["填海巷社区(居委会)","填海巷社区","填海巷",...]}。
根据处理好的五个维度的地名字典,构建行政区域地名的DFA模型,形成字典树。其中,DFA算法是通过提前构造出一个树状查找结构,之后根据输入内容在该树状结构中可以进行非常高效的查找;例如,将["填海巷社区","填海巷"]构建一个DFA模型,会形成一个如下的字典树:
{
"填":{
"海":{
"巷":{
"社":{
"区":{
"is_end":True
},
"is_end":False
},
"is_end":True
},
"is_end":False
},
"is_end":False
},
"is_end":False
}。
这里使用一个嵌套字典,作为树形结构,其中,关键字(key值)为单个字符作为DFA算法中的事件(event);通过“is_end”字段判断该字符是否为地名中的最后一个字(即判断状态是否为最后一个状态),如果是最后一个状态,则停止状态转换,获取地址数据中匹配的关键词。
若关键词存在包含关系,例如“填海巷社区”和“填海巷”,依然可以使用“is_end”字段表示关键词的结尾,同时通过寻找除“is_end”字段外是否还有其他的字段来判断是否继续进行匹配。
在遍历第一数组列表的同时,将规范化地址和统计用区划代码分别作为关键字(key)和值(value),构建映射字典/>;以便于后续识别出规范化实体后按照省、市、区/县、乡镇/街道、居/村委会五个维度进行结构化输出,以应用于一些地址自动补充的场景,例如快递单证的地址填写等。
建立音形码模型,然后利用音形码模型对规范化地址进行音形码编码,以构建规范化地址的音形码字典。由于规范化地址是地址字符串,因此对规范化地址进行音形码编码的方式是:利用音形码模型对每个单字进行音形码编码后,再进行拼接。
其中,单字音形码模型的构建如下所示:
音形码模型包括音码和字形码,音码包括韵母、声母、补码和声调,字形码包括结构编码、四角编码和笔画数;具体结构如图3所示:
第一位是韵母位,通过简单的替代规则,将单个汉字的韵母部分映射到一个字符位。汉字的拼音中一共有24种韵母,其中部分(主要是前鼻音和后鼻音部分)为了后期计算目的,采用相同的字符来替代,匹配表如表1所示:
表1
如上表所示,对于an和ang或en和eng,所使用的同一种字符转换,目的是为了在后期计算相似度时,将这种差异弱化。对于没有这种需求的应用,可以自行生成映射表。
第二位是生母位,同样利用一张替换表来将声母转换成设定的字符,如表2所示:
表2
如表2所示,z和zh或s和sh,所使用的也是相同设定字符的转换。
第三位是补码,通常用于在声母和韵母之间还有一个辅音时,采用韵母表相同的替代规则。
第四位是声调位,分别用1,2,3,4来替代汉字中的四声。
第五位是结构位,根据汉字的不同结构,利用一个字符来表示该汉字的结构,如表3所示:
表3
第六、七、八、九位是使用四角编码描述汉字形态,每个汉字按左上角(1)、右上角(2)、左下角(3)、右下角(4)的次序取四个角的号码。举例:端先取左上角0,其次取右上角2再取左下角1,最后取右下角2,端=0212。
第十位是汉字的笔画数位,从一到九,分别代表该汉字的笔画为一到九,接下来是A代表10位,B代表11位,并依次类推直至Z;Z代表35位,以及任何超过35位的都用Z。例如:汉字“琅”,它的音形码编码如图4所示。
因此,通过音形码模型对每个单字进行音形码编码,可以将每个汉字转换成一系列的字符序列,方便对汉字字符进行相似度计算。
步骤S2:分别对输入的文本内容进行DFA模型匹配识别和NER识别,对应获取候选地址实体及其位置索引,包括以下步骤:
步骤S201:对输入的文本内容进行DFA模型的匹配识别,获取DFA模型匹配识别的候选地址实体及其位置索引,包括:
根据DFA模型对文本内容进行最大匹配,生成匹配结果,获取候选地址实体及其位置索引,具体包括:
遍历待匹配的文本内容,获取单个汉字字符及其对应的位置索引,并判断当前字符是否为DFA模型匹配项的起点:
若为起点,则继续向下遍历文本内容的字符,并与字典树的下一层进行匹配;如果能够匹配得上则继续向下对文字内容的字符和字典树下一层进行遍历,并在匹配过程中判断该字符是否为地名中的最后一个字(即判断字段“is_end”的状态是否为1);
若是,则保留匹配获得的字符串的起始位置索引,并使用DFA模型的最大匹配,继续判断下一层是否能够匹配:
若能匹配,则继续进行上述的遍历操作,直至匹配到当前字符为地名中的最后一个字时(即判断字段“is_end”的状态为1时),停止匹配并返回匹配结果;
若不能匹配,则中止遍历操作,返回匹配结果并选择最长匹配的字符串及其位置索引作为最终结果,即DFA模型匹配识别获得的候选地址实体及其位置索引。
由于在DFA模型对文本内容进行最大匹配过程属于精确匹配识别,过程中要求待匹配的文本内容中的字符跟DFA模型中字符完全一致才能匹配识别出来;但是实际情况中,由于输入法、语音转文本或者OCR识别等各种情况下导致的输入错误,这种完全精确匹配识别方法就不能将其识别出来了。
因此在最大匹配过程中,在开始遍历待匹配的文本内容时,一边遍历一边利用音形码模型对文本内容的每个汉字进行音形编码,并通过对每个汉字进行单字符音形码相似度计算,实现每个汉字的模糊匹配识别。使用基于音形码的模糊匹配,能够识别匹配出由于输入错误或者识别错误的子串,提高识别出来的召回率。
其中,利用音形码模型对文本内容的每个汉字进行音形编码,并通过对每个汉字进行单字符音形码相似度计算,具体过程为:
利用前述的音形码模型对文本内容的每个汉字进行音形码编码,转换成字符序列;对待匹配的文本内容中的汉字和字典树中的字符进行单字符音形码相似度计算;当单字符音形码相似度大于第一设定阈值时,则单字符匹配识别成功,匹配结果为DFA模型匹配识别获得的候选地址实体及其位置索引。
通过下式计算文本内容中汉字与字典树中字符的单字符音形码相似度:
式中,表示文本内容中汉字与字典树中字符的单字符音形码相似度,P表示文本内容中汉字与字典树中字符的音码相似度,S表示文本内容中汉字与字典树中字符的形码相似度,λ表示音码相似度的权重值;
其中,通过下式计算文本内容中汉字与字典树中字符的音码相似度:
式中,分别表示音码中的韵母、声母、补码、声调的相似度;
通过下式计算文本内容中汉字与字典树中字符的形码相似度:
式中,分别表示结构编码和四角编码的相似度,分别表示文本内容中汉字与字典树中字符的笔画数。/>
步骤S202:对输入的文本内容进行NER识别,获取NER识别的候选地址实体及其位置索引,包括:
通过采用一些开源的NER识别工具,例如百度的LAC进行地点识别,通过NER识别的地点数据结果,作为NER识别的候选地址实体及其位置索引。
步骤S3,对DFA模型匹配识别的候选地址实体及其位置索引与NER识别的候选地址实体及其位置索引进行地址纠错和规范化,获得过滤后的候选地址实体及其对应的规范化地址;具体包括:
制定去重和拼接规则,对DFA模型匹配识别的候选地址实体和NER识别的候选地址实体进行去重和拼接,获得处理后的候选地址实体;其中去重和拼接规则如下:
若两个候选地址实体的索引位置有部分重合,则合并取其并集结果作为处理后的候选地址实体;
若两个候选地址实体有包含关系,则取最大长度的作为处理后的候选地址实体;
若其中一个候选地址实体的结束索引位置与另一个候选地址实体的起始索引位置一样,则合并这两个候选地址实体;
若两个候选地址实体的起始位置索引相同,即表示DFA模型匹配识别的结果和NER识别的结果相同,则优先选择DFA模型匹配的结果,因为DFA模型匹配的结果中是可以直接获取对应的标准的规范化地址;
在去重和拼接过程中,对DFA模型匹配识别的候选地址实体进行优先保留,同时保留匹配结果中候选地址实体对应的规范化地址,作为DFA模型匹配识别的标准候选地址实体及其对应的规范化地址。
若处理后的候选地址实体中存在只属于NER识别获得的候选地址实体,则基于音形码模型,计算只属于NER识别的候选地址实体与音形码字典中规范化地址的相似度。其中,相似度计算的方式采用字符串编辑距离相似度及音形码编辑距离相似度两种方式加权合并,具体的计算公式如下:
式中,表示只属于NER识别的候选地址实体与音形码字典中规范化地址的相似度,/>表示只属于NER识别的候选地址实体与音形码字典中规范化地址的字符串编辑距离相似度,/>表示只属于NER识别的候选地址实体与音形码字典的规范化地址的音形码编辑距离相似度。
其中,所述字符串编辑距离相似度和所述音形码编辑距离相似度均基于编辑距离相似度进行计算,通过下式计算所述编辑距离相似度:
式中,表示所述编辑距离的相似度,/>表示A、B两个字符串的编辑距离,/>分别表示A、B两个字符串的长度;当计算时;其中,A、B分别表示只属于NER识别的候选地址实体与音形码字典中规范化地址的字符串/音形码;即当计算/>时,A、B分别表示只属于NER识别的候选地址实体与音形码字典中规范化地址的字符串;当计算时,A、B分别表示只属于NER识别的候选地址实体与音形码字典中规范化地址的音形码。
若只属于NER识别的候选地址实体与音形码字典中规范化地址的音形码相似度大于第二设定阈值时,则保留当前处理后的候选地址实体和对应的规范化地址,作为NER识别的标准候选地址实体及其对应的规范化地址。
将DFA模型匹配识别的标准候选地址实体及其对应的规范化地址与NER识别的标准候选地址实体及其对应的规范化地址,分别对应进行合并,获得过滤后的候选地址实体及其对应的规范化地址。
步骤S4,根据过滤后的候选地址实体及其对应的规范化地址,判断文本内容中的地址数据是否有误,并输出地址结果,包括:
判断过滤后的候选地址实体和对应的规范化地址是否相同:
若相同,则说明文本内容中的地址数据无误,直接输出过滤后的候选地址实体及其位置索引;
若不同,则说明文本内容中的地址数据不规范或出现错别字,输出过滤后的候选地址实体及其索引位置、以及对应的规范化地址。
若文本内容中的地址数据不完整或输出的候选地址实体需要自动生成或需要输出结构化的地址结果,在输出地址结果时,利用映射字典获取过滤后的候选地址实体对应的统计用区划代码;根据对应的统计用区划代码,在第一数组列表中获取相对应的字典数据,并按照行政区域划分数据输出结构化的地址数据。
即针对于特定场景和特定情况下才需要对输出的地址结果进行结构化输出,例如:填快递地址时,可以直接根据结构化的地址进行自动填补。
本发明还提供一种基于音形码的地址识别和规范化系统,如图5所示,包括:构建单元、识别单元、规范单元和判断单元,
构建单元,用于根据采集的地址数据,构建行政区域地名的DFA模型;
识别单元,用于分别对输入的文本内容进行DFA模型匹配识别和NER识别,对应获取候选地址实体及其位置索引;
规范单元,用于对DFA模型匹配识别的候选地址实体及其位置索引与NER识别的候选地址实体及其位置索引进行地址纠错和规范化,获得过滤后的候选地址实体和对应的规范化地址;
判断单元,根据过滤后的候选地址实体和对应的规范化地址,判断文本内容中的地址数据是否有误,并输出地址结果。
关于上述实施例中的系统,其中各个单元模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本发明实施例还提供一种电子设备,其结构如图6所示,包括:存储器、处理器及存储于存储器上并在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的一种基于音形码的地址识别和规范化方法。
基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令执行时实现前述的一种基于音形码的地址识别和规范化方法。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种基于音形码的地址识别和规范化方法,其特征在于,包括:
根据采集的地址数据,构建行政区域地名的DFA模型;
分别对输入的文本内容进行DFA模型匹配识别和NER识别,对应获取候选地址实体及其位置索引;
对DFA模型匹配识别的候选地址实体及其位置索引与NER识别的候选地址实体及其位置索引进行地址纠错和规范化,获得过滤后的候选地址实体及其对应的规范化地址;
根据过滤后的候选地址实体及其对应的规范化地址,判断文本内容中的地址数据是否有误,并输出地址结果。
2.根据权利要求1所述的一种基于音形码的地址识别和规范化方法,其特征在于,所述根据采集的地址数据,构建行政区域地名的DFA模型,包括:
将采集的地址数据处理成标准形式的字典数据,并添加到第一数组列表中;
遍历所述第一数组列表,按照行政区域地名划分的五个维度将所有地名及简称进行合并,生成一个地名字典;
根据五个维度的地名字典,构建行政区域地名的DFA模型,形成字典树;
其中,所述标准形式的字典数据包括统计用区划代码和规范化地址。
3.根据权利要求2所述的一种基于音形码的地址识别和规范化方法,其特征在于,
在遍历所述第一数组列表的同时,将所述规范化地址和所述统计用区划代码分别作为关键字和值,构建映射字典;
建立音形码模型,利用音形码模型对规范化地址进行音形码编码,以构建规范化地址的音形码字典。
4.根据权利要求1所述的一种基于音形码的地址识别和规范化方法,其特征在于,对输入的文本内容进行DFA模型匹配识别,获取DFA模型匹配识别的候选地址实体及其位置索引,包括:
根据DFA模型对文本内容进行最大匹配,生成匹配结果,获取DFA模型匹配识别的候选地址实体及其位置索引;
在最大匹配过程中,利用音形码模型对文本内容的每个汉字进行音形码编码,转换成字符序列;对待匹配的文本内容中的汉字和字典树中的字符进行单字符音形码相似度计算;当单字符音形码相似度大于第一设定阈值时,则单字符匹配成功。
5.根据权利要求4所述的一种基于音形码的地址识别和规范化方法,其特征在于,利用音形码模型对文本内容的每个汉字进行音形码编码,转换成字符序列,包括:
根据替代规则,将文本内容的每个汉字对应的音码部分和字形部分,按顺序对应转换生成字符序列;
其中,所述音形码模型包括音码和字形码;
所述音码包括韵母、声母、补码和声调,所述字形码包括结构编码、四角编码和笔画数。
6.根据权利要求4所述的一种基于音形码的地址识别和规范化方法,其特征在于,根据DFA模型对文本内容进行最大匹配,包括:
遍历待匹配的文本内容,获取单个汉字字符及其对应的位置索引,并判断当前字符是否为DFA模型匹配项的起点:
若为起点,则继续向下遍历文本内容的字符,并与字典树的下一层进行匹配;如果能匹配则继续向下对文字内容的字符和字典树下一层进行遍历,并在匹配过程中判断该字符是否为地名中的最后一个字;
若是,则保留匹配获得的字符串的起始位置索引,并使用DFA模型的最大匹配,继续判断下一层是否能够匹配;
若能匹配,则继续进行上述的遍历操作,直至匹配到当前字符为地名中的最后一个字时,停止匹配并返回匹配结果;
若不能匹配,则中止遍历操作,返回匹配结果并选择最长匹配的字符串及其位置索引作为最终结果,即DFA模型匹配识别获得的候选地址实体及其位置索引。
7.根据权利要求4或6所述的一种基于音形码的地址识别和规范化方法,其特征在于,对待匹配的文本内容中的汉字和字典树中的字符进行单字符音形码相似度计算,包括:
通过下式计算文本内容中汉字与字典树中字符的单字符音形码相似度:
;式中,/>表示文本内容中汉字与字典树中字符的单字符音形码相似度,P表示文本内容中汉字与字典树中字符的音码相似度,S表示文本内容中汉字与字典树中字符的形码相似度,λ表示音码相似度的权重值;
其中,通过下式计算文本内容中汉字与字典树中字符的音码相似度:
;式中,分别表示音码中的韵母、声母、补码、声调的相似度;
通过下式计算文本内容中汉字与字典树中字符的形码相似度:
;式中,/>分别表示结构编码和四角编码的相似度,/>分别表示文本内容中汉字与字典树中字符的笔画数。
8.根据权利要求1或3所述的一种基于音形码的地址识别和规范化方法,其特征在于,对DFA模型匹配识别的候选地址实体及其位置索引与NER识别的候选地址实体及其位置索引进行地址纠错和规范化,获得过滤后的候选地址实体及其对应的规范化地址,包括:
制定去重和拼接规则,对DFA模型匹配识别的候选地址实体和NER识别的候选地址实体进行去重和拼接,获得处理后的候选地址实体;
在去重和拼接过程中,对DFA模型匹配识别的候选地址实体进行优先保留,同时保留匹配结果中候选地址实体对应的规范化地址,作为DFA模型匹配识别的标准候选地址实体及其对应的规范化地址;
若处理后的候选地址实体中存在只属于NER识别获得的候选地址实体,则基于音形码模型,计算只属于NER识别的候选地址实体与音形码字典中规范化地址的相似度;
若只属于NER识别的候选地址实体与音形码字典中规范化地址的音形码相似度大于第二设定阈值时,则保留当前处理后的候选地址实体和对应的规范化地址,作为NER识别的标准候选地址实体及其对应的规范化地址;
将DFA模型匹配识别的标准候选地址实体及其对应的规范化地址与NER识别的标准候选地址实体及其对应的规范化地址,分别对应进行合并,获得过滤后的候选地址实体及其对应的规范化地址。
9.根据权利要求8所述的一种基于音形码的地址识别和规范化方法,其特征在于,计算只属于NER识别的候选地址实体与音形码字典中规范化地址的相似度,包括:
采用字符串编辑距离相似度及音形码编辑距离相似度两种方式加权合并,通过下式计算只属于NER识别的候选地址实体与音形码字典中规范化地址的相似度:
;式中,表示只属于NER识别的候选地址实体与音形码字典中规范化地址的相似度,表示只属于NER识别的候选地址实体与音形码字典中规范化地址的字符串编辑距离相似度,/>表示只属于NER识别的候选地址实体与音形码字典中规范化地址的音形码编辑距离相似度;
其中,所述字符串编辑距离相似度和所述音形码编辑距离相似度均基于编辑距离相似度进行计算,通过下式计算所述编辑距离相似度:
;式中,/>表示所述编辑距离的相似度,/>表示A、B两个字符串的编辑距离,/>分别表示A、B两个字符串的长度,其中,A、B分别表示只属于NER识别的候选地址实体与音形码字典中规范化地址的字符串。
10.根据权利要求1所述的一种基于音形码的地址识别和规范化方法,其特征在于,根据过滤后的候选地址实体和对应的规范化地址,判断文本内容中的地址数据是否有误,并输出地址结果,包括:
判断过滤后的候选地址实体和对应的规范化地址是否相同:
若相同,则说明文本内容中的地址数据无误,直接输出过滤后的候选地址实体及其位置索引;
若不同,则说明文本内容中的地址数据不规范或出现错别字,输出过滤后的候选地址实体及其索引位置、以及对应的规范化地址。
11.根据权利要求10所述的一种基于音形码的地址识别和规范化方法,其特征在于,
若文本内容中的地址数据不完整或输出的候选地址实体需要自动生成或需要输出结构化的地址结果,在输出地址结果时,利用映射字典获取过滤后的候选地址实体对应的统计用区划代码;
根据对应的统计用区划代码,在第一数组列表中获取相对应的字典数据,并按照行政区域划分数据输出结构化的地址数据。
12.一种基于音形码的地址识别和规范化系统,其特征在于,包括:构建单元、识别单元、规范单元和判断单元,
所述构建单元,用于根据采集的地址数据,构建行政区域地名的DFA模型;
所述识别单元,用于分别对输入的文本内容进行DFA模型匹配识别和NER识别,对应获取候选地址实体及其位置索引;
所述规范单元,用于对DFA模型匹配识别的候选地址实体及其位置索引与NER识别的候选地址实体及其位置索引进行地址纠错和规范化,获得过滤后的候选地址实体和对应的规范化地址;
所述判断单元,根据过滤后的候选地址实体和对应的规范化地址,判断文本内容中的地址数据是否有误,并输出地址结果。
13.一种电子设备,其特征在于,包括:存储器、处理器及存储于存储器上并在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-10任一所述的一种基于音形码的地址识别和规范化方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令执行时实现权利要求1-10任一所述的一种基于音形码的地址识别和规范化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311099011.5A CN116821271B (zh) | 2023-08-30 | 2023-08-30 | 一种基于音形码的地址识别和规范化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311099011.5A CN116821271B (zh) | 2023-08-30 | 2023-08-30 | 一种基于音形码的地址识别和规范化方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116821271A true CN116821271A (zh) | 2023-09-29 |
CN116821271B CN116821271B (zh) | 2023-11-24 |
Family
ID=88120647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311099011.5A Active CN116821271B (zh) | 2023-08-30 | 2023-08-30 | 一种基于音形码的地址识别和规范化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821271B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11312046A (ja) * | 1998-01-22 | 1999-11-09 | Tegic Commun Inc | 音声仮名文字の入力順序を生成するための入力システム |
CN1523518A (zh) * | 2003-02-17 | 2004-08-25 | 郭慧民 | 智能汉语文化辞典系统 |
US6901436B1 (en) * | 1999-03-22 | 2005-05-31 | Eric Schneider | Method, product, and apparatus for determining the availability of similar identifiers and registering these identifiers across multiple naming systems |
WO2005111824A2 (en) * | 2004-05-19 | 2005-11-24 | Silverkite Inc. | Method and system for processing of text content |
CN1746829A (zh) * | 2005-09-01 | 2006-03-15 | 张兴华 | 优化汉字根码输入法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
US20080005106A1 (en) * | 2006-06-02 | 2008-01-03 | Scott Schumacher | System and method for automatic weight generation for probabilistic matching |
KR101132150B1 (ko) * | 2010-10-12 | 2012-07-11 | (주)수지원넷소프트 | 주소 정형화를 위한 주소 처리방법 및 장치, 그리고 이를 위한 기록매체 |
CN102902660A (zh) * | 2011-07-26 | 2013-01-30 | 苗玉水 | 汉语语音码全拼和简拼汉语全息信息处理方法 |
US20130253903A1 (en) * | 2010-12-02 | 2013-09-26 | Accessible Publishing Systems Pty Ltd | Text conversion and representation system |
US20140289636A1 (en) * | 2013-03-25 | 2014-09-25 | Wayne Noel Johnson | Information displaying method and apparatus |
JP2015090567A (ja) * | 2013-11-06 | 2015-05-11 | 株式会社エイ・オー・テクノロジーズ | インデキシング方法、インデキシング装置、集積回路 |
US20170255692A1 (en) * | 2016-03-03 | 2017-09-07 | Qijian Software (Beijing) Co., Ltd. | Method for providing search suggestion candidates for input key and method for creating database dfa |
US20220342936A1 (en) * | 2020-01-06 | 2022-10-27 | Baidu Online Network Technology (Beijing) Co., Ltd. | Query auto-completion method and apparatus, device and computer storage medium |
CN116501834A (zh) * | 2023-04-10 | 2023-07-28 | 北京捷通华声科技股份有限公司 | 地址信息处理方法、装置、移动终端及存储介质 |
-
2023
- 2023-08-30 CN CN202311099011.5A patent/CN116821271B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11312046A (ja) * | 1998-01-22 | 1999-11-09 | Tegic Commun Inc | 音声仮名文字の入力順序を生成するための入力システム |
US6901436B1 (en) * | 1999-03-22 | 2005-05-31 | Eric Schneider | Method, product, and apparatus for determining the availability of similar identifiers and registering these identifiers across multiple naming systems |
CN1523518A (zh) * | 2003-02-17 | 2004-08-25 | 郭慧民 | 智能汉语文化辞典系统 |
WO2005111824A2 (en) * | 2004-05-19 | 2005-11-24 | Silverkite Inc. | Method and system for processing of text content |
CN1746829A (zh) * | 2005-09-01 | 2006-03-15 | 张兴华 | 优化汉字根码输入法 |
US20080005106A1 (en) * | 2006-06-02 | 2008-01-03 | Scott Schumacher | System and method for automatic weight generation for probabilistic matching |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
KR101132150B1 (ko) * | 2010-10-12 | 2012-07-11 | (주)수지원넷소프트 | 주소 정형화를 위한 주소 처리방법 및 장치, 그리고 이를 위한 기록매체 |
US20130253903A1 (en) * | 2010-12-02 | 2013-09-26 | Accessible Publishing Systems Pty Ltd | Text conversion and representation system |
CN102902660A (zh) * | 2011-07-26 | 2013-01-30 | 苗玉水 | 汉语语音码全拼和简拼汉语全息信息处理方法 |
US20140289636A1 (en) * | 2013-03-25 | 2014-09-25 | Wayne Noel Johnson | Information displaying method and apparatus |
JP2015090567A (ja) * | 2013-11-06 | 2015-05-11 | 株式会社エイ・オー・テクノロジーズ | インデキシング方法、インデキシング装置、集積回路 |
US20170255692A1 (en) * | 2016-03-03 | 2017-09-07 | Qijian Software (Beijing) Co., Ltd. | Method for providing search suggestion candidates for input key and method for creating database dfa |
US20220342936A1 (en) * | 2020-01-06 | 2022-10-27 | Baidu Online Network Technology (Beijing) Co., Ltd. | Query auto-completion method and apparatus, device and computer storage medium |
CN116501834A (zh) * | 2023-04-10 | 2023-07-28 | 北京捷通华声科技股份有限公司 | 地址信息处理方法、装置、移动终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
周昊;沈庆宏;: "基于改进音形码的中文敏感词检测算法", 南京大学学报(自然科学), no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN116821271B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN112507065B (zh) | 一种基于注释语义信息的代码搜索方法 | |
CN111695355B (zh) | 地址文本识别方法、装置、介质、电子设备 | |
CN106909611B (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN108369582B (zh) | 一种地址纠错方法及终端 | |
WO2015027835A1 (zh) | 一种通信地址查询邮政编码的系统及终端 | |
CN113468888A (zh) | 基于神经网络的实体关系联合抽取方法与装置 | |
CN112612863B (zh) | 一种基于中文分词器的地址匹配方法及系统 | |
CN110990520B (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN106886565B (zh) | 一种基础房型自动聚合方法 | |
AU2018102145A4 (en) | Method of establishing English geographical name index and querying method and apparatus thereof | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
WO2023226292A1 (zh) | 从文本中进行关系抽取的方法、关系抽取模型及介质 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
CN111125380A (zh) | 一种基于RoBERTa和启发式算法的实体链接方法 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN115630648A (zh) | 面向人机对话的地址要素解析方法、系统与计算机可读介质 | |
CN109271625B (zh) | 一种汉语地名的拼音拼写规范化方法 | |
CN116414824A (zh) | 行政区划信息识别和标准化处理的方法、装置及存储介质 | |
CN116821271B (zh) | 一种基于音形码的地址识别和规范化方法及系统 | |
CN117033816A (zh) | 停车推荐方法、装置、电子设备及存储介质 | |
CN106021241B (zh) | 盲文点位汉字编码及其与盲文之间的机器翻译方法 | |
CN116501834A (zh) | 地址信息处理方法、装置、移动终端及存储介质 | |
CN112417812B (zh) | 地址标准化方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |