CN114661688B - 地址纠错方法及装置 - Google Patents
地址纠错方法及装置 Download PDFInfo
- Publication number
- CN114661688B CN114661688B CN202210299304.7A CN202210299304A CN114661688B CN 114661688 B CN114661688 B CN 114661688B CN 202210299304 A CN202210299304 A CN 202210299304A CN 114661688 B CN114661688 B CN 114661688B
- Authority
- CN
- China
- Prior art keywords
- address
- node
- text
- determining
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012937 correction Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 241001414989 Thysanoptera Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/387—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种地址纠错方法及装置。所述方法包括:获取待纠错的地址文本;确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种地址纠错方法及装置。
背景技术
随着地址文本的使用日趋广泛,地址文本中出现错误的概率也日益提高。由于地址文本中出现错误会影响地址的准确性,因而,如何对地址文本进行纠错是一个值得关注的问题。
在对地址文本进行纠错的过程中,相关技术会从与待纠错的地址文本匹配的多个地址文本中选择出相似度最高(例如读音相似度最高)的地址文本作为目标地址文本,并用此目标地址文本作为待纠错的地址文本的替换文本。
然而,相关技术中这种基于相似度进行地址纠错的方式会存在准确率不高的问题。
发明内容
本申请实施例提供一种地址纠错方法及装置,以解决相关技术中的地址纠错方式的准确率不高的问题。
第一方面,本申请提供了一种地址纠错方法,所述方法包括:
获取待纠错的地址文本;
确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;
基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;
基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
第二方面,本申请提供了一种地址纠错装置,所述装置包括:
获取模块,用于获取待纠错的地址文本;
确定模块,用于确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
第三方面,本申请提供了一种电子设备,包括:处理器和存储器,所述存储器存储在程序或指令,所述程序或指令被所述处理器执行时实现第一方面的方法的步骤。
第四方面,本申请提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现第一方面的方法的步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
在本申请实施例中,获取待纠错的地址文本;确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。如此,由于行政区域与地址节点对应,且基于地址字典树得到的地址节点能够准确反映行政区域之间的关系,因而这种基于各个节点分支的权重分值或所包含的地址节点的数目,确定与所述待纠错的地址文本对应的目标地址的方式地址纠错的准确率较高。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种地址纠错方法的流程图;
图2为本申请实施例提供的一种地址纠错方法的流程图;
图3为本申请实施例提供的一种地址纠错方法的流程图;
图4为本申请实施例提供的一种地址纠错方法的流程图;
图5为本申请实施例提供的一种地址纠错方法的流程图;
图6为本申请实施例提供的一种地址纠错方法的流程图;
图7为本申请实施例提供的一种地址纠错方法的流程图;
图8为本申请实施例提供的一种地址纠错方法的示意图;
图9为本申请实施例提供的一种地址纠错装置的结构框图;
图10为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是本申请实施例提供的一种地址纠错方法的流程图,参照图1,本申请实施例提供的地址纠错方法可以包括:
步骤110,获取待纠错的地址文本;
其中,所述待纠错的地址文本可以是包含多级行政区域(例如,四级行政区域)文本的标准地址文本,也可以是错误的地址文本。在本申请实施例中,所述待纠错的地址文本可以是用户直接输入而获取的,也可以是电子设备从例如快递单或者文档中获取的。
步骤120,确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;
在本申请实施例中,所述地址节点列表可以包括多个地址节点子列表,所述地址节点子列表中可以包括多个节点分支;或者,所述地址节点列表也可以直接包括多个节点分支。所述地址节点列表中包括的地址节点可以对应于多级行政区域,例如,四级行政区域;一个地址节点可以对应于一个行政区域。其中,所述四级行政区域可以为,第一级行政区域可以为省级:省、直辖市、特别行政区;第二级行政区域可以为地级:地级市、地区;第三级行政区域可以为县级:县、市辖区;第四级行政区域可以为乡级:街道办事处、乡、镇。
在本申请实施例中,所述节点分支可以包括基于地址字典树得到的至少两个地址节点进行融合之后得到的节点分支,其中,所述至少两个地址节点可以对应于相互匹配的行政区域;所述节点分支也可以包括一个基于地址字典树得到的所述地址节点,也就是说,可以将未进行融合的一个地址节点作为一个节点分支。举例而言,在所述地址节点列表可以为:“天津市”、“北京市”、“渝北区”、“崔各庄地区”的情况下,“北京市”和“崔各庄地区”两个地址节点可以相互匹配,则该地址节点列表中的一个节点分支可以为:[“北京市”,“崔各庄地区”],同时,“天津市”和“渝北区”两个单独的地址节点也可以作为两个单独的节点分支。
步骤130,基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;
在本申请实施例中,所述目标节点分支可以为所述至少一个节点分支中权重分值最高的节点分支,也可以为所述至少一个节点分支中所包含的地址节点的数目最多的节点分支。需了解的是,所述节点分支的权重分值可以根据地址节点权重算法进行确定。
步骤140,基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
在本申请实施例中,在所述地址节点列表包括多个地址节点子列表的情况下,可以将权重分值最高的所述目标节点分支所在的地址节点子列表作为最终列表,所述最终列表可以为与所述目标地址相对应的列表,再通过所述最终列表确定与所述待纠错的地址文本对应的目标地址。在所述地址节点列表包括多个节点分支的情况下,可以对所述目标节点分支追溯到其原本对应的完整地址文本,再通过该完整地址文本确定与所述待纠错的地址文本对应的目标地址。
其中,所述目标地址可以为对所述待纠错的地址文本进行纠错后的地址,也就是说,所述目标地址可以包括标准的多级行政区域地址,例如,标准的四级行政区域地址。
本申请实施例提供的地址纠错方法,获取待纠错的地址文本;确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。如此,由于行政区域与地址节点对应,且基于地址字典树得到的地址节点能够准确反映行政区域之间的关系,因而这种基于各个节点分支的权重分值或所包含的地址节点的数目,确定与所述待纠错的地址文本对应的目标地址的方式地址纠错的准确率较高。
图2是本申请实施例提供的一种地址纠错方法的流程图,参照图2,本申请实施例提供的地址纠错方法可以包括:
步骤210,获取待纠错的地址文本;
步骤220,基于所述待纠错的地址文本,获取第一地址文本,所述第一地址文本包括至少一个行政区域文本,所述至少一个行政区域文本中的各个行政区域文本按照行政区域级别大小顺序排列;
其中,所述第一地址文本可以为与所述待纠错的地址文本相对应的,按照行政区域级别大小顺序排列的文本。所述第一地址文本可以包括一个地址文本,也可以包括多个地址文本。举例而言,所述待纠错的地址文本可以为“天京市北京市朝阳区崔各庄地区”,则所述第一地址文本可以为:“北京市北京市朝阳区崔各庄地区”和“天津市北京市朝阳区崔各庄地区”;此时,所述第一地址文本可以包括两个地址文本。
步骤230,通过所述地址字典树将所述第一地址文本中的各个行政区域文本转换为地址节点,其中,一个行政区域文本对应于一个地址节点;
在本申请实施例中,可以根据地址字典树来将所述第一地址文本中的各个行政区域文本转换为地址节点。其中,字典树又可以称为单词查找树,是一种树形结构,是一种哈希树的变种。字典树的典型应用是用于统计、排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。字典树的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
可以理解的是,所述地址字典树可以根据多级行政区域进行设置,例如,根据四级行政区域,可以设置父节点为第一级行政区域,子节点可以为该第一级行政区域下的第二级行政区域,以此类推进行构造地址字典树。以北京市为例,所述地址字典树可以为:
需了解的是,该地址字典树只是用文本进行简单可视化,并不代表该地址字典树只包括上文所示的这些节点信息。
步骤240,基于转换得到的所述地址节点,确定所述地址节点列表;
在本申请实施例中,在所述第一地址文本包括多个地址文本的情况下,相应地,所述地址节点列表可以包括多个地址节点子列表。举例而言,在所述第一地址文本可以包括两个地址文本,即“北京市北京市渝北区崔各庄地区”和“天津市北京市渝北区崔各庄地区”的情况下,所述地址节点列表可以包括第一地址节点子列表和第二地址节点子列表。
其中,所述第一地址节点子列表例如可以为:
[“北京市”],
[“北京市”,“北京市”],
[“重庆市”,“重庆市”,“渝北区”],
[“北京市”,“北京市”,“朝阳区”,“崔各庄地区”];
所述第二地址节点子列表例如可以为:
[“天津市”],
[“北京市”,“北京市”],
[“重庆市”,“重庆市”,“渝北区”],
[“北京市”,“北京市”,“朝阳区”,“崔各庄地区”]。
需了解的是,上文所示的所述第一地址节点子列表和所述第二地址节点子列表只是展示了地址节点对应的文本,实际上,地址节点列表中的每个地址节点是地址字典树中对应的地址对象,每个地址节点的父节点和子节点所对应的行政区域都是不同的,所以地址节点列表中的每个地址节点是唯一的。
举例而言,所述第一地址节点子列表实际上可以为[“北京市”,“北京市”,“渝北区”,“崔各庄地区”],所述第二地址节点子列表实际上可以为[“天津市”,“北京市”,“渝北区”,“崔各庄地区”]。
步骤250,基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;
步骤260,基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
本申请实施例提供的地址纠错方法,可以通过待纠错地址文本获取第一地址文本,再通过地址字典树将第一地址文本转换为地址节点,基于能够准确反映行政区域之间关系的地址节点,确定地址节点列表,从而通过各个节点分支的权重分值或所包含的地址节点的数目,确定与待纠错的地址文本对应的目标地址的方式提高了地址纠错的准确率。
可选地,在本申请的一个实施例中,步骤240可以具体包括:对于转换得到的所述地址节点中不存在子节点的第一地址节点,将所述第一地址节点作为节点分支加入至地址节点列表中;对于转换得到的所述地址节点中存在子节点的第二地址节点,将所述第二地址节点和所述第二地址节点的子节点共同作为节点分支,加入至所述地址节点列表中。
举例而言,在所述地址节点列表中包括的地址节点为:“天津市”、“北京市”、“渝北区”、“崔各庄地区”的情况下,所述第一地址节点可以为:“天津市”和“渝北区”,“天津市”和“渝北区”可以作为两个单独的节点分支加入至地址节点列表中;所述第二地址节点可以为:“北京市”,“崔各庄地区”可以为“北京市”在地址字典树中存在的子节点,所述第二地址节点和所述第二地址节点的子节点共同作为的节点分支可以为:[“北京市”,“崔各庄地区”]。
如此,可以通过判断地址节点列表中地址节点是否存在相对应的子节点,来确定地址节点列表中的节点分支;若该地址节点的子节点也存在于该地址节点列表中,则可以将两个地址节点进行融合得到节点分支;若该地址节点的子节点不存在于该地址节点列表中,则可以将该地址节点单独作为一个节点分支,从而确定地址节点列表。
在本申请实施例中,步骤220中所述基于所述待纠错的地址文本,获取第一地址文本的具体过程可以通过各种不同的方式来实现。
下面举出一种具体的实现范例。需了解,下面列出的仅是示例,并不意为限制。
可参见图3,步骤220中所述基于所述待纠错的地址文本,获取第一地址文本的具体过程可以包括:步骤310、步骤320和步骤330。下面对这三个步骤进行阐释。
步骤310,基于已预先训练好的第一模型,确定所述待纠错的地址文本中的各个行政区域文本;
其中,所述第一模型可以为基于转换器的双向编码表征(Bidirectional EncoderRepresentation from Transformers,BERT)模型,BERT模型是一个预训练的语言表征模型。从名字中可以看出,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的表征,即:文本的语义表示,然后将文本的语义表示在特定自然语言任务中作微调,最终应用于该自然语言任务。
其中,行政区域文本为按照行政区域划分形成的文本,而不论行政区域的级别。例如,“北京市”可以为一个行政区域文本,“朝阳区”可以为一个行政区域文本,“崔各庄地区”也可以为一个行政区域文本。
步骤320,通过文本匹配模型,确定所述待纠错的地址文本中各个行政区域文本对应的匹配文本;
可以理解的是,所述文本匹配模型可以用于在预设的地址匹配库中确定与所述待纠错的地址文本中各个的行政区域文本对应的匹配文本。其中,所述预设的地址匹配库可以由例如国家统计局和民政部的官方网站中的行政区域构成。
其中,所述文本匹配模型可以为深度结构语义匹配模型(Deep StructuredSemantic Models,DSSM),所谓语义匹配,就是在语义上衡量文本的相似度。具体地,可以通过确定待匹配文本的置信度大小来确定所述待纠错的地址文本中各个行政区域文本对应的匹配文本。其中,置信度也可以称为可靠度,或置信水平、置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的;因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。需了解的是,所述匹配文本的置信度大小可以根据实际选择的文本匹配模型进行设置,例如,所述匹配文本的置信度大小可以设置为文本匹配50%以上。
步骤330,基于所述各个行政区域文本对应的匹配文本,获取所述第一地址文本。
举例而言,所述待纠错的地址文本可以为“天京市北京市朝阳区崔各庄地区”,经所述第一模型确定后的地址文本可以为“天京市/北京市/朝阳区/崔各庄地区”;再通过所述文本匹配模型,地址文本中的行政区域文本“天京市”的匹配文本可以为:“北京市”、“天津市”,行政区域文本“北京市”的匹配文本可以为:“北京市”,行政区域文本“朝阳区”的匹配文本可以为:“朝阳区”,行政区域文本“崔各庄地区”的匹配文本可以为:“崔各庄地区”;则所述第一地址文本可以为:“北京市北京市朝阳区崔各庄地区”,“天津市北京市朝阳区崔各庄地区”。
本申请实施例提供的地址纠错方法,可以通过已预先训练好的第一模型和文本匹配模型,将待纠错的地址文本转换为与各个行政区域文本相匹配的第一地址文本,从而保证了后续确定与待纠错的地址文本对应的地址节点列表的准确性。
可选地,在本申请的一个实施例中,步骤310中的所述第一模型是基于地址标注数据对预训练模型进行调整得到的,所述地址标注数据是对按照正确的行政区域级别大小顺序排列好的地址文本进行文字操作得到的,所述文字操作包括以下至少一种:文字增加操作、文字删除操作、文字替换操作以及文字顺序调整操作。
其中,所述按照正确的行政区域级别大小顺序排列好的地址文本可以从国家统计局和中华人民共和国民政部的官方网站中获取得到,例如,一级:“北京市”,二级:“北京市”,三级:“朝阳区”,四级:“崔各庄地区”。所述地址标注数据可以为对按照正确的行政区域级别大小顺序排列好的地址文本进行文字增加操作、文字删除操作、文字替换操作以及文字顺序调整操作中的至少一种操作后得到的数据。
举例而言,所述文字替换操作可以为将“北京市北京市朝阳区崔各庄地区”改为“天京市北京市朝阳区崔各庄地区”,则“天京市北京市朝阳区崔各庄地区”可以作为一个地址标注数据;或者,也可以将“朝阳区”替换为“天通苑北街道”,则“北京市北京市天通苑北街道崔各庄地区”也可以作为一个地址标注数据。
需了解的是,在所述第一模型的训练过程中,如果不能进行人工标注数据,则可以使用上文自动构建的地址标注数据;如果可以进行人工标注数据,则可以设置人工标注和自动构建的比例,例如可以为9:1,进行构建地址标注数据。
在本申请实施例中,所述对预训练模型进行的调整可以为微调,微调可以是预训练模型BERT在业界出现后,在BERT模型的基础上对具体的任务数据进行训练拟合的过程。从某种程度上等同于训练,只不过以前的训练,是从头开始训练一个模型;现在的微调,是在BERT等预训练模型的基础上进行训练,称为微调。
具体地,可以以“天京市北京市朝阳区崔各庄地区望京村委会”地址标注数据为示例。举例而言,可以按照BIO的格式进行标注,B可以代表实体的开始、I可以代表实体的延续、O可以代表非实体。
例如:我叫王大锤
O O B-人名I-人名I-人名
其中,王大锤对应的是人名,王代表人名的开始,所以标签为B-人名,大锤代表人名的延续,所以标签为I-人名。
同理,可以设置1代表第一级行政区域,2代表第二级行政区域,以此类推。对地址标注数据的处理结果可以如下:
天京市北京市朝阳区崔各庄地区
B-1 I-1 I-1 B-2 I-2 I-2 B-3 I-3 I-3 B-4 I-4 I-4 I-4 I-4望京村委会
O O O O O
其中,可以通过例如BERT模型预测地址标注数据中的每个字,确定每个字所属于的例如B-1、I-1、B-2等类别。然后,基于所述地址标注数据,可以对预训练模型进行微调,得到所述第一模型;所述第一模型可以用于预测输入所述第一模型的地址文本中的每个字对应的类别,即可以确定待纠错的地址文本中的各个行政区域文本。
如此,可以通过自动构建地址标注数据,提高地址标注数据的构建效率;同时,通过地址标注数据对预训练模型进行调整得到第一模型,可以提高确定待纠错的地址文本中的各个行政区域文本的准确率。
在本申请实施例中,步骤130中所述基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支的具体过程可以通过各种不同的方式来实现。
在本申请的一个实施例中,步骤130具体可以包括:确定所述至少一个节点分支中每一个节点分支所包含的地址节点的数目;将包含的地址节点数目最多的节点分支,确定为所述目标节点分支。
可以理解的是,地址节点列表中包含的地址节点数目最多的节点分支可以作为所述目标节点分支。由于节点分支中的地址节点可以在地址字典树中的同一个子树上,所以节点分支中包含的地址节点数目越多,根据该节点分支得到的目标地址与所述待纠错的地址文本越匹配。
如此,可以通过地址节点列表的节点分支中包含的地址节点数目,确定目标节点分支,从而确定与待纠错的地址文本对应的目标地址,提高了地址纠错的准确率。
在本申请的另一个实施例中,在所述至少一个节点分支中每一个节点分支所包含的地址节点的数目相同的情况下,可以通过地址节点列表中节点分支的权重分值,确定目标节点分支。具体地,如图4所示,步骤130可以包括:确定所述至少一个节点分支中每一个节点分支的权重分值;将所述至少一个节点分支中权重分值最高的节点分支,确定为所述目标节点分支。
图4是本申请实施例提供的一种地址纠错方法的流程图,参照图4,本申请实施例提供的地址纠错方法可以包括:
步骤410,获取待纠错的地址文本;
步骤420,确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;
步骤430,确定所述至少一个节点分支中每一个节点分支的权重分值;
步骤440,将所述至少一个节点分支中权重分值最高的节点分支,确定为目标节点分支;
步骤450,基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
本申请实施例提供的地址纠错方法,可以通过地址节点列表中节点分支的权重分值,确定目标节点分支,从而确定与待纠错的地址文本对应的目标地址,提高了地址纠错的准确率。
在本申请实施例中,步骤430中所述确定所述至少一个节点分支中每一个节点分支的权重分值的具体过程可以通过各种不同的方式来实现。
下面举出一种具体的实现范例。需了解,下面列出的仅是示例,并不意为限制。
可参见图5,步骤430中所述确定所述至少一个节点分支中每一个节点分支的权重分值的具体过程可以包括:步骤510和步骤520。下面对这两个步骤进行阐释。
步骤510,确定所述至少一个节点分支中每一个节点分支所包含的地址节点的权重分值;
其中,所述地址节点列表包括的地址节点可以对应于四级行政区域;针对同一个节点分支,对应于不同级别行政区域的地址节点的权重分值之和可以满足如下条件:
对应于第一级行政区域的地址节点和对应于第二级行政区域的地址节点的权重分值之和可以大于对应于第三级行政区域的地址节点和对应于第四级行政区域的地址节点的权重分值之和;
对应于所述第一级行政区域的地址节点和对应于所述第三级行政区域的地址节点的权重分值之和可以大于对应于所述第二级行政区域的地址节点和对应于所述第四级行政区域的地址节点的权重分值之和;
对应于所述第二级行政区域的地址节点和对应于所述第三级行政区域的地址节点的权重分值之和可以大于对应于所述第一级行政区域的地址节点和对应于所述第四级行政区域的地址节点的权重分值之和。
步骤520,将每一个节点分支所包含的地址节点的权重分值之和作为节点分支的权重分值。
本申请实施例提供的地址纠错方法,可以通过节点分支中的地址节点的权重分值来确定节点分支的权重分值,从而确定目标节点分支以及与待纠错的地址文本对应的目标地址,提高了地址纠错的准确率。
在本申请的一个实施例中,如图6所示,步骤510中所述确定所述至少一个节点分支中每一个节点分支所包含的地址节点的权重分值的具体过程可以包括:步骤610、步骤620和步骤630。下面对这三个步骤进行阐释。
步骤610,确定所述至少一个节点分支中每一个节点分支所包含的地址节点的初始权重分值;
其中,所述初始权重分值可以为各级行政区域所对应的权重分值。例如,可以设置第一级行政区域对应的权重分值为25,可以设置第二级行政区域对应的权重分值为30,可以设置第三级行政区域对应的权重分值为20,可以设置第四级行政区域对应的权重分值为10,由于25+30>20+10,25+20>30+10,30+20>25+10,故此时,不同级别行政区域的权重分值可以满足不同级别行政区域的地址节点的权重分值的条件。需了解的是,设置各级行政区域的权重分值的差值可以不小于5,可以便于区分同级行政区域的权重大小。
步骤620,基于所述地址节点的文本长度,确定所述地址节点的附加权重分值;
在本申请实施例中,步骤620中所述基于所述地址节点的文本长度,确定所述地址节点的附加权重分值可以包括:在所述地址节点的文本长度为第一长度的情况下,确定所述地址节点的附加权重分值为第一权重分值;在所述地址节点的文本长度为第二长度的情况下,确定所述地址节点的附加权重分值为第二权重分值;在所述地址节点的文本长度为第三长度的情况下,确定所述地址节点的附加权重分值为第三权重分值;在所述地址节点的文本长度为第四长度的情况下,确定所述地址节点的附加权重分值为第四权重分值。
其中,所述第一长度<所述第二长度<所述第三长度<所述第四长度,所述第一权重分值<所述第二权重分值<所述第三权重分值<所述第四权重分值。
举例而言,可以设置文本长度为1的地址节点的附加权重分值为0,即所述第一长度为1,对应的所述第一权重分值为0;同理,可以设置文本长度为2的地址节点的附加权重分值为1,即所述第二长度为2,对应的所述第二权重分值为1;可以设置文本长度为3的地址节点的附加权重分值为2,即所述第三长度为3,对应的所述第三权重分值为2;可以设置文本长度为4的地址节点的附加权重分值为3,即所述第四长度为4,对应的所述第四权重分值为3。
可以理解的是,所述第三长度可以为标准长度,即所述地址节点的文本长度可以为3,例如,“北京市”、“天津市”、“湖北省”以及“渝北区”这些行政区域文本的文本长度均为3;所述第三长度对应的所述第三权重分值可以为2。
步骤630,将所述初始权重分值与所述附加权重分值之和作为所述地址节点的权重分值。
为了便于理解,在此举例说明:
例如,一个地址节点可以为“渝北”,“渝北”可以对应于第三级行政区域,则该地址节点的初始权重分值可以为20;然后由于“渝北”省略了“区”,剩下两个字,所以该地址节点的附加权重分值可以为1;因而,该地址节点的权重分值可以为20+1=21。
如此,假如在地址节点列表中同时出现有“渝北区域”和“渝北区”,由于渝北区域和渝北区都是属于第三级行政区域,它们的初始权重分值是一样的,而设置附加权重分值可以让“渝北区域”的权重分值比“渝北区”的权重分值更高。
本申请实施例提供的地址纠错方法,可以通过设置地址节点的初始权重分值和附加权重分值,进一步确定地址节点的权重分值,从而便于确定不同文本长度的地址节点的权重分值,提高了地址纠错的准确率。
可选地,在本申请的一个实施例中,步骤620中所述基于所述地址节点的文本长度,确定所述地址节点的附加权重分值,还可以包括:在所述地址节点的后缀与标准行政区域地址后缀相匹配的情况下,将所述地址节点的附加权重分值加M,M为正整数;在去掉所述地址节点的后缀与标准行政区域地址相匹配的情况下,所述地址节点的附加权重分值不变。
举例而言,一个地址节点可以为“渝北区”,去掉后缀“区”之后的“渝北”可以匹配上,则该地址节点“渝北区”的附加权重分值不变。又例如,一个地址节点可以为“蓟县”,如果去掉行政区域后缀之后只有一个字,则不能去掉行政区域后缀;而“蓟县”的后缀“县”与标准行政区域地址后缀可以相匹配,则该地址节点“蓟县”的附加权重分值可以加1。
如此,可以针对去掉行政区域后缀之后只有一个字的地址节点进行设置附加权重分值,从而确定地址节点的权重分值,便于确定不同地址节点的权重分值,提高地址纠错的准确率。
下面结合实际的应用场景,对本申请实施例提供的地址纠错方法进行进一步地详细介绍。图7是本申请实施例提供的一种地址纠错方法的流程图。如图7所示,本申请实施例提供的地址纠错方法仅是示例而非限制,目的在于便于本领域技术人员更好地理解本申请的技术方案。参照图7和图8,本申请实施例提供的地址纠错方法还可以具体包括如下步骤:
步骤701,获取待纠错的地址文本。
步骤702,基于已预先训练好的第一模型,确定所述待纠错的地址文本中的各个行政区域文本。
步骤703,通过文本匹配模型,确定所述待纠错的地址文本中各个行政区域文本对应的匹配文本。
步骤704,基于所述各个行政区域文本对应的匹配文本,获取所述第一地址文本,所述第一地址文本为按照行政区域级别大小顺序排列的文本。
步骤705,通过地址字典树将所述第一地址文本中的各个行政区域文本转换为地址节点,其中,一个行政区域文本对应于一个地址节点。
步骤706,基于转换得到的所述地址节点,确定所述地址节点列表。
步骤707,确定所述至少一个节点分支中每一个节点分支所包含的地址节点的初始权重分值。
步骤708,基于所述地址节点的文本长度,确定所述地址节点的附加权重分值。
步骤709,将所述初始权重分值与所述附加权重分值之和作为所述地址节点的权重分值。
步骤710,将每一个节点分支所包含的地址节点的权重分值之和作为节点分支的权重分值。
步骤711,将所述至少一个节点分支中权重分值最高的节点分支,确定为目标节点分支。
步骤712,基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
本申请实施例提供的地址纠错方法,由于行政区域与地址节点对应,且基于地址字典树得到的地址节点能够准确反映行政区域之间的关系,因而这种基于各个节点分支的权重分值,确定与所述待纠错的地址文本对应的目标地址的方式地址纠错的准确率较高。
图9为本申请实施例提供的一种地址纠错装置的结构框图。参照图9,本申请实施例提供的一种地址纠错装置900,可以包括:获取模块910和确定模块920。
其中,所述获取模块910,用于获取待纠错的地址文本;
所述确定模块920,用于确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括地址节点,一个地址节点对应于一个行政区域;基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
本申请实施例提供的地址纠错装置,获取待纠错的地址文本;确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。如此,由于行政区域与地址节点对应,且基于地址字典树得到的地址节点能够准确反映行政区域之间的关系,因而这种基于各个节点分支的权重分值或所包含的地址节点的数目,确定与所述待纠错的地址文本对应的目标地址的方式地址纠错的准确率较高。
可选地,在一个实施例中,在确定与所述待纠错的地址文本对应的地址节点列表的过程中,所述确定模块920具体可以用于:基于所述待纠错的地址文本,获取第一地址文本,所述第一地址文本包括至少一个行政区域文本,所述至少一个行政区域文本中的各个行政区域文本按照行政区域级别大小顺序排列;通过所述地址字典树将所述第一地址文本中的各个行政区域文本转换为地址节点,其中,一个行政区域文本对应于一个地址节点;基于转换得到的所述地址节点,确定所述地址节点列表。
可选地,在一个实施例中,在基于转换得到的所述地址节点,确定所述地址节点列表的过程中,所述确定模块920具体可以用于:对于转换得到的所述地址节点中不存在子节点的第一地址节点,将所述第一地址节点作为节点分支加入至地址节点列表中;对于转换得到的所述地址节点中存在子节点的第二地址节点,将所述第二地址节点和所述第二地址节点的子节点共同作为节点分支,加入至所述地址节点列表中。
可选地,在一个实施例中,在基于所述待纠错的地址文本,获取第一地址文本的过程中,所述确定模块920具体可以用于:基于已预先训练好的第一模型,确定所述待纠错的地址文本中的各个行政区域文本;通过文本匹配模型,确定所述待纠错的地址文本中各个行政区域文本对应的匹配文本;基于所述各个行政区域文本对应的匹配文本,获取所述第一地址文本。
可选地,在一个实施例中,所述第一模型是基于地址标注数据对预训练模型进行调整得到的,所述地址标注数据是对按照正确的行政区域级别大小顺序排列好的地址文本进行文字操作得到的,所述文字操作包括以下至少一种:文字增加操作、文字删除操作、文字替换操作以及文字顺序调整操作。
可选地,在一个实施例中,在基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支的过程中,所述确定模块920具体可以用于:确定所述至少一个节点分支中每一个节点分支所包含的地址节点的数目;将包含的地址节点数目最多的节点分支,确定为所述目标节点分支。
可选地,在一个实施例中,在基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支的过程中,所述确定模块920具体可以用于:确定所述至少一个节点分支中每一个节点分支的权重分值;将所述至少一个节点分支中权重分值最高的节点分支,确定为所述目标节点分支。
可选地,在一个实施例中,在确定所述至少一个节点分支中每一个节点分支的权重分值的过程中,所述确定模块920具体可以用于:确定所述至少一个节点分支中每一个节点分支所包含的地址节点的权重分值;将每一个节点分支所包含的地址节点的权重分值之和作为节点分支的权重分值。
可选地,在一个实施例中,在确定所述至少一个节点分支中每一个节点分支所包含的地址节点的权重分值的过程中,所述确定模块920具体可以用于:确定所述至少一个节点分支中每一个节点分支所包含的地址节点的初始权重分值;基于所述地址节点的文本长度,确定所述地址节点的附加权重分值;将所述初始权重分值与所述附加权重分值之和作为所述地址节点的权重分值。
可选地,在一个实施例中,在基于所述地址节点的文本长度,确定所述地址节点的附加权重分值的过程中,所述确定模块920具体可以用于:在所述地址节点的文本长度为第一长度的情况下,确定所述地址节点的附加权重分值为第一权重分值;在所述地址节点的文本长度为第二长度的情况下,确定所述地址节点的附加权重分值为第二权重分值;在所述地址节点的文本长度为第三长度的情况下,确定所述地址节点的附加权重分值为第三权重分值;在所述地址节点的文本长度为第四长度的情况下,确定所述地址节点的附加权重分值为第四权重分值;其中,所述第一长度<所述第二长度<所述第三长度<所述第四长度,所述第一权重分值<所述第二权重分值<所述第三权重分值<所述第四权重分值。
可选地,在一个实施例中,所述地址节点列表包括的地址节点可以对应于四级行政区域;针对同一个节点分支,对应于不同级别行政区域的地址节点的权重分值之和可以满足如下条件:对应于第一级行政区域的地址节点和对应于第二级行政区域的地址节点的权重分值之和大于对应于第三级行政区域的地址节点和对应于第四级行政区域的地址节点的权重分值之和;对应于所述第一级行政区域的地址节点和对应于所述第三级行政区域的地址节点的权重分值之和大于对应于所述第二级行政区域的地址节点和对应于所述第四级行政区域的地址节点的权重分值之和;对应于所述第二级行政区域的地址节点和对应于所述第三级行政区域的地址节点的权重分值之和大于对应于所述第一级行政区域的地址节点和对应于所述第四级行政区域的地址节点的权重分值之和。
需要说明的是,本申请实施例提供的地址纠错装置与上文提到的地址纠错方法相对应。相关内容可参照上文对地址纠错方法的描述,在此不做赘述。
此外,如图10所示,本申请实施例还提供一种电子设备1000,所述电子设备可以为各种类型的计算机等。所述电子设备1000包括:处理器1010,存储器1020及存储在所述存储器1020上并在所述处理器1010上运行的程序或指令,所述程序或指令被所述处理器1010执行时实现上文所描述的任一种方法的步骤。举例而言,所述程序被所述处理器1020执行时实现如下过程:获取待纠错的地址文本;确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。如此,由于行政区域与地址节点对应,且基于地址字典树得到的地址节点能够准确反映行政区域之间的关系,因而这种基于各个节点分支的权重分值或所包含的地址节点的数目,确定与所述待纠错的地址文本对应的目标地址的方式地址纠错的准确率较高。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被所述处理器1010执行时实施上文所描述的任一种方法的步骤。举例而言,所述程序被所述处理器1010执行时实现如下过程:获取待纠错的地址文本;确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。如此,由于行政区域与地址节点对应,且基于地址字典树得到的地址节点能够准确反映行政区域之间的关系,因而这种基于各个节点分支的权重分值或所包含的地址节点的数目,确定与所述待纠错的地址文本对应的目标地址的方式地址纠错的准确率较高。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (13)
1.一种地址纠错方法,其特征在于,所述方法包括:
获取待纠错的地址文本;
确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域,所述基于地址字典树得到的地址节点能够反映行政区域之间的关系;
基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支,所述目标节点分支是所述至少一个节点分支中地址节点数量最多或权重分值最高的节点分支;
基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述待纠错的地址文本对应的地址节点列表包括:
基于所述待纠错的地址文本,获取第一地址文本,所述第一地址文本包括至少一个行政区域文本,所述至少一个行政区域文本中的各个行政区域文本按照行政区域级别大小顺序排列;
通过所述地址字典树将所述第一地址文本中的各个行政区域文本转换为地址节点,其中,一个行政区域文本对应于一个地址节点;
基于转换得到的所述地址节点,确定所述地址节点列表。
3.根据权利要求2所述的方法,其特征在于,所述基于转换得到的所述地址节点,确定所述地址节点列表包括:
对于转换得到的所述地址节点中不存在子节点的第一地址节点,将所述第一地址节点作为节点分支加入至地址节点列表中;
对于转换得到的所述地址节点中存在子节点的第二地址节点,将所述第二地址节点和所述第二地址节点的子节点共同作为节点分支,加入至所述地址节点列表中。
4.根据权利要求2所述的方法,其特征在于,所述基于所述待纠错的地址文本,获取第一地址文本包括:
基于已预先训练好的第一模型,确定所述待纠错的地址文本中的各个行政区域文本;
通过文本匹配模型,确定所述待纠错的地址文本中各个行政区域文本对应的匹配文本;
基于所述各个行政区域文本对应的匹配文本,获取所述第一地址文本。
5.根据权利要求4所述的方法,其特征在于,所述第一模型是基于地址标注数据对预训练模型进行调整得到的,所述地址标注数据是对按照正确的行政区域级别大小顺序排列好的地址文本进行文字操作得到的,所述文字操作包括以下至少一种:文字增加操作、文字删除操作、文字替换操作以及文字顺序调整操作。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述至少一个节点分支中每一个节点分支所包含的地址节点的数目,确定目标节点分支包括:
确定所述至少一个节点分支中每一个节点分支所包含的地址节点的数目;
将包含的地址节点数目最多的节点分支,确定为所述目标节点分支。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述至少一个节点分支中每一个节点分支的权重分值,确定目标节点分支包括:
确定所述至少一个节点分支中每一个节点分支的权重分值;
将所述至少一个节点分支中权重分值最高的节点分支,确定为所述目标节点分支。
8.根据权利要求7所述的方法,其特征在于,所述确定所述至少一个节点分支中每一个节点分支的权重分值包括:
确定所述至少一个节点分支中每一个节点分支所包含的地址节点的权重分值;
将每一个节点分支所包含的地址节点的权重分值之和作为节点分支的权重分值。
9.根据权利要求8所述的方法,其特征在于,所述确定所述至少一个节点分支中每一个节点分支所包含的地址节点的权重分值包括:
确定所述至少一个节点分支中每一个节点分支所包含的地址节点的初始权重分值;
基于所述地址节点的文本长度,确定所述地址节点的附加权重分值;
将所述初始权重分值与所述附加权重分值之和作为所述地址节点的权重分值。
10.根据权利要求9所述的方法,其特征在于,所述基于所述地址节点的文本长度,确定所述地址节点的附加权重分值包括:
在所述地址节点的文本长度为第一长度的情况下,确定所述地址节点的附加权重分值为第一权重分值;
在所述地址节点的文本长度为第二长度的情况下,确定所述地址节点的附加权重分值为第二权重分值;
在所述地址节点的文本长度为第三长度的情况下,确定所述地址节点的附加权重分值为第三权重分值;
在所述地址节点的文本长度为第四长度的情况下,确定所述地址节点的附加权重分值为第四权重分值;
其中,所述第一长度<所述第二长度<所述第三长度<所述第四长度,所述第一权重分值<所述第二权重分值<所述第三权重分值<所述第四权重分值。
11.根据权利要求8-10任一项所述的方法,其特征在于,所述地址节点列表包括的地址节点对应于四级行政区域;针对同一个节点分支,对应于不同级别行政区域的地址节点的权重分值之和满足如下条件:
对应于第一级行政区域的地址节点和对应于第二级行政区域的地址节点的权重分值之和大于对应于第三级行政区域的地址节点和对应于第四级行政区域的地址节点的权重分值之和;
对应于所述第一级行政区域的地址节点和对应于所述第三级行政区域的地址节点的权重分值之和大于对应于所述第二级行政区域的地址节点和对应于所述第四级行政区域的地址节点的权重分值之和;
对应于所述第二级行政区域的地址节点和对应于所述第三级行政区域的地址节点的权重分值之和大于对应于所述第一级行政区域的地址节点和对应于所述第四级行政区域的地址节点的权重分值之和。
12.一种地址纠错装置,其特征在于,所述装置包括:
获取模块,用于获取待纠错的地址文本;
确定模块,用于确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域,所述基于地址字典树得到的地址节点能够反映行政区域之间的关系;基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支,所述目标节点分支是所述至少一个节点分支中地址节点数量最多或权重分值最高的节点分支;基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
13.一种电子设备,包括:处理器和存储器,所述存储器存储程序或指令,所述程序或指令被所述处理器执行时实现根据权利要求1-11任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210299304.7A CN114661688B (zh) | 2022-03-25 | 2022-03-25 | 地址纠错方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210299304.7A CN114661688B (zh) | 2022-03-25 | 2022-03-25 | 地址纠错方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114661688A CN114661688A (zh) | 2022-06-24 |
CN114661688B true CN114661688B (zh) | 2023-09-19 |
Family
ID=82030834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210299304.7A Active CN114661688B (zh) | 2022-03-25 | 2022-03-25 | 地址纠错方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661688B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101674311A (zh) * | 2009-10-10 | 2010-03-17 | 成都市华为赛门铁克科技有限公司 | 地址查询方法、网关或用户设备及服务器 |
CN101741911A (zh) * | 2009-12-18 | 2010-06-16 | 中兴通讯股份有限公司 | 基于多副本协同的写操作方法、系统及节点 |
CN102231681A (zh) * | 2011-06-27 | 2011-11-02 | 中国建设银行股份有限公司 | 一种高可用集群计算机系统及其故障处理方法 |
CN103678110A (zh) * | 2012-09-26 | 2014-03-26 | 国际商业机器公司 | 提供修改相关信息的方法和装置 |
CN107249049A (zh) * | 2017-07-21 | 2017-10-13 | 北京亚鸿世纪科技发展有限公司 | 一种对网络采集的域名数据进行筛选的方法及设备 |
CN108369582A (zh) * | 2018-03-02 | 2018-08-03 | 福建联迪商用设备有限公司 | 一种地址纠错方法及终端 |
CN108804425A (zh) * | 2018-06-13 | 2018-11-13 | 北京玄科技有限公司 | 智能机器人会话文本的地址信息提取方法及装置 |
CN109284948A (zh) * | 2017-07-20 | 2019-01-29 | 菜鸟智能物流控股有限公司 | 物流对象选择方法、物流对象选择装置和电子装置 |
CN109416928A (zh) * | 2016-06-07 | 2019-03-01 | 伊路米纳有限公司 | 用于进行二级和/或三级处理的生物信息学系统、设备和方法 |
CN109815498A (zh) * | 2019-01-25 | 2019-05-28 | 深圳市小赢信息技术有限责任公司 | 一种中文地址标准化方法、装置及电子设备 |
CN110019645A (zh) * | 2017-09-28 | 2019-07-16 | 北京搜狗科技发展有限公司 | 索引库构建方法、搜索方法及装置 |
CN110020640A (zh) * | 2019-04-19 | 2019-07-16 | 厦门商集网络科技有限责任公司 | 一种纠正身份证信息的方法及终端 |
CN110582958A (zh) * | 2017-05-04 | 2019-12-17 | 高通股份有限公司 | 用于上行链路控制信息的极化码 |
CN111695355A (zh) * | 2020-05-26 | 2020-09-22 | 平安银行股份有限公司 | 地址文本识别方法、装置、介质、电子设备 |
CN112528633A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN112560842A (zh) * | 2020-12-07 | 2021-03-26 | 马上消费金融股份有限公司 | 一种信息识别方法、装置、设备和可读存储介质 |
CN112579713A (zh) * | 2019-09-29 | 2021-03-30 | 中国移动通信集团辽宁有限公司 | 地址识别方法、装置、计算设备及计算机存储介质 |
CN112632213A (zh) * | 2020-12-03 | 2021-04-09 | 大箴(杭州)科技有限公司 | 地址信息标准化方法及装置、电子设备、存储介质 |
CN113505190A (zh) * | 2021-09-10 | 2021-10-15 | 南方电网数字电网研究院有限公司 | 地址信息修正方法、装置、计算机设备和存储介质 |
CN114036930A (zh) * | 2021-10-28 | 2022-02-11 | 北京明略昭辉科技有限公司 | 文本纠错方法、装置、设备及计算机可读介质 |
CN114065762A (zh) * | 2021-11-23 | 2022-02-18 | 中邮信息科技(北京)有限公司 | 一种文本信息的处理方法、装置、介质及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6543286B2 (en) * | 2001-01-26 | 2003-04-08 | Movaz Networks, Inc. | High frequency pulse width modulation driver, particularly useful for electrostatically actuated MEMS array |
DK1751931T3 (en) * | 2004-06-03 | 2016-02-08 | Nokia Technologies Oy | Service based carrier control and operation of the traffic flow template with mobile ip |
-
2022
- 2022-03-25 CN CN202210299304.7A patent/CN114661688B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101674311A (zh) * | 2009-10-10 | 2010-03-17 | 成都市华为赛门铁克科技有限公司 | 地址查询方法、网关或用户设备及服务器 |
CN101741911A (zh) * | 2009-12-18 | 2010-06-16 | 中兴通讯股份有限公司 | 基于多副本协同的写操作方法、系统及节点 |
CN102231681A (zh) * | 2011-06-27 | 2011-11-02 | 中国建设银行股份有限公司 | 一种高可用集群计算机系统及其故障处理方法 |
CN103678110A (zh) * | 2012-09-26 | 2014-03-26 | 国际商业机器公司 | 提供修改相关信息的方法和装置 |
CN109416928A (zh) * | 2016-06-07 | 2019-03-01 | 伊路米纳有限公司 | 用于进行二级和/或三级处理的生物信息学系统、设备和方法 |
CN110582958A (zh) * | 2017-05-04 | 2019-12-17 | 高通股份有限公司 | 用于上行链路控制信息的极化码 |
CN109284948A (zh) * | 2017-07-20 | 2019-01-29 | 菜鸟智能物流控股有限公司 | 物流对象选择方法、物流对象选择装置和电子装置 |
CN107249049A (zh) * | 2017-07-21 | 2017-10-13 | 北京亚鸿世纪科技发展有限公司 | 一种对网络采集的域名数据进行筛选的方法及设备 |
CN110019645A (zh) * | 2017-09-28 | 2019-07-16 | 北京搜狗科技发展有限公司 | 索引库构建方法、搜索方法及装置 |
CN108369582A (zh) * | 2018-03-02 | 2018-08-03 | 福建联迪商用设备有限公司 | 一种地址纠错方法及终端 |
CN108804425A (zh) * | 2018-06-13 | 2018-11-13 | 北京玄科技有限公司 | 智能机器人会话文本的地址信息提取方法及装置 |
CN109614472A (zh) * | 2018-06-13 | 2019-04-12 | 安徽省泰岳祥升软件有限公司 | 文本中地址信息的提取方法及装置 |
CN109815498A (zh) * | 2019-01-25 | 2019-05-28 | 深圳市小赢信息技术有限责任公司 | 一种中文地址标准化方法、装置及电子设备 |
CN110020640A (zh) * | 2019-04-19 | 2019-07-16 | 厦门商集网络科技有限责任公司 | 一种纠正身份证信息的方法及终端 |
CN112579713A (zh) * | 2019-09-29 | 2021-03-30 | 中国移动通信集团辽宁有限公司 | 地址识别方法、装置、计算设备及计算机存储介质 |
CN111695355A (zh) * | 2020-05-26 | 2020-09-22 | 平安银行股份有限公司 | 地址文本识别方法、装置、介质、电子设备 |
CN112632213A (zh) * | 2020-12-03 | 2021-04-09 | 大箴(杭州)科技有限公司 | 地址信息标准化方法及装置、电子设备、存储介质 |
CN112560842A (zh) * | 2020-12-07 | 2021-03-26 | 马上消费金融股份有限公司 | 一种信息识别方法、装置、设备和可读存储介质 |
CN112528633A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN113505190A (zh) * | 2021-09-10 | 2021-10-15 | 南方电网数字电网研究院有限公司 | 地址信息修正方法、装置、计算机设备和存储介质 |
CN114036930A (zh) * | 2021-10-28 | 2022-02-11 | 北京明略昭辉科技有限公司 | 文本纠错方法、装置、设备及计算机可读介质 |
CN114065762A (zh) * | 2021-11-23 | 2022-02-18 | 中邮信息科技(北京)有限公司 | 一种文本信息的处理方法、装置、介质及设备 |
Non-Patent Citations (2)
Title |
---|
区块链数据的可视化分析;朱晓菊;陈青青;;艺术与设计(理论)(04);第34-36页 * |
幸存路径存储及输出的一种新方法;孙晓岩, 王艳, 付永庆;电子技术(06);第61-62页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114661688A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885824B (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN106909611B (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN108369582B (zh) | 一种地址纠错方法及终端 | |
WO2014209810A2 (en) | Methods and apparatuses for mining synonymous phrases, and for searching related content | |
US9507881B2 (en) | Search device | |
CN109145073A (zh) | 一种基于分词算法的地址解析方法及装置 | |
WO2015027835A1 (zh) | 一种通信地址查询邮政编码的系统及终端 | |
CN110427471B (zh) | 一种基于知识图谱的自然语言问答方法及系统 | |
CN112256821B (zh) | 中文地址补全的方法、装置、设备及存储介质 | |
CN115688779B (zh) | 一种基于自监督深度学习的地址识别方法 | |
CN115470307A (zh) | 一种地址匹配方法及装置 | |
CN116303854A (zh) | 一种基于地址知识图谱的定位方法及装置 | |
CN109213990A (zh) | 一种特征提取方法、装置和服务器 | |
CN118363657A (zh) | 基于代码层次结构的预训练网络的输入编码方法和系统 | |
CN104572632A (zh) | 一种确定具有专名译文的词汇的翻译方向的方法 | |
CN114860870A (zh) | 一种文本的纠错方法及装置 | |
CN114661688B (zh) | 地址纠错方法及装置 | |
CN114416892A (zh) | 一种基于自训练地址切分模型的全国地址归一化方法 | |
CN116757498A (zh) | 一种惠企政策推送方法、设备及介质 | |
KR102687103B1 (ko) | 질의어를 처리하는 장치, 방법 및 컴퓨터 프로그램 | |
CN115617841A (zh) | 一种数据查询语句的生成方法、系统、设备及存储介质 | |
CN115438061A (zh) | 一种客户标准地址数据库的更新方法及系统 | |
CN115146635A (zh) | 一种基于领域知识增强的地址分节方法 | |
CN112651230B (zh) | 融合语言模型生成方法和装置、单词纠错方法和电子设备 | |
CN109145297A (zh) | 基于hash存储的网络词汇语义分析方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |