CN112148819A - 结合rpa和ai的地址识别方法和装置 - Google Patents

结合rpa和ai的地址识别方法和装置 Download PDF

Info

Publication number
CN112148819A
CN112148819A CN202010824850.9A CN202010824850A CN112148819A CN 112148819 A CN112148819 A CN 112148819A CN 202010824850 A CN202010824850 A CN 202010824850A CN 112148819 A CN112148819 A CN 112148819A
Authority
CN
China
Prior art keywords
address
administrative division
division code
rpa system
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010824850.9A
Other languages
English (en)
Inventor
胡一川
汪冠春
褚瑞
李玮
白龙飞
唐梓毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Original Assignee
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Benying Network Technology Co Ltd, Beijing Laiye Network Technology Co Ltd filed Critical Beijing Benying Network Technology Co Ltd
Priority to CN202010824850.9A priority Critical patent/CN112148819A/zh
Publication of CN112148819A publication Critical patent/CN112148819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本申请涉及一种结合RPA和AI的地址识别方法和装置,涉及人工智能技术领域,具体公开的技术方案为:RPA系统抽取文本中的地址以及地址中的各个成分后,先根据地址中各个成分的行政区划代码,确定地址的行政区划代码;结合地址、地址的行政区划代码以及地址结构知识库,获取地址对应的地址结构;根据地址对应的地址结构,对地址进行补全和校正,得到地址识别结果,从而在地址为新地址或者包含错误的地址时,能够对地址中的错误进行校正,对地址中缺少的成分进行补全,提高地址结构的召回率,提高地址识别效率。

Description

结合RPA和AI的地址识别方法和装置
技术领域
本申请涉及人工智能技术领域,特别涉及一种结合RPA和AI的地址识别方法和装置。
背景技术
机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
目前很多场景下出现了需要识别文本中地址的需求。相关技术中,地址识别方法为,利用地址结构知识库获取文本中地址的各个成分,然后利用检索系统对地址结构知识库中所有疑似的地址结构进行检索、排序后,交由用户选择。上述方法中,在文本中地址为包含错误的地址时,地址结构的召回率低,地址识别效率差。
发明内容
本申请提供一种结合RPA和AI的地址识别方法和装置,以解决现有技术中地址结构召回率低,地址识别效率差的技术问题。
本申请实施例提供一种结合RPA和AI的地址识别方法,包括:RPA系统获取待进行地址识别的文本;所述RPA系统结合所述文本以及地址抽取器,抽取所述文本中的地址以及所述地址中的各个成分;所述RPA系统根据所述地址中各个成分的行政区划代码,确定所述地址的行政区划代码;所述RPA系统结合所述地址、所述地址的行政区划代码以及地址结构知识库,获取所述地址对应的地址结构;所述RPA系统根据所述地址对应的地址结构,对所述地址进行补全和校正,得到地址识别结果。
本申请另一实施例提供一种结合RPA和AI的地址识别装置,所述地址识别装置应用于RPA系统,包括:第一获取模块,用于获取待进行地址识别的文本;抽取模块,用于结合所述文本以及地址抽取器,抽取所述文本中的地址以及所述地址中的各个成分;确定模块,用于根据所述地址中各个成分的行政区划代码,确定所述地址的行政区划代码;第二获取模块,用于结合所述地址、所述地址的行政区划代码以及地址结构知识库,获取所述地址对应的地址结构;处理模块,用于根据所述地址对应的地址结构,对所述地址进行补全和校正,得到地址识别结果。
本申请又一实施例提供一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述实施例所述的结合RPA和AI的地址识别方法。
本申请还一实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的结合RPA和AI的地址识别方法。
本申请实施例提供的技术方案可以包括以下有益效果:
RPA系统抽取文本中的地址以及地址中的各个成分后,先根据地址中各个成分的行政区划代码,确定地址的行政区划代码;结合地址、地址的行政区划代码以及地址结构知识库,获取地址对应的地址结构;根据地址对应的地址结构,对地址进行补全和校正,得到地址识别结果,从而在地址为新地址或者包含错误的地址时,能够对地址中的错误进行校正,对地址中缺少的成分进行补全,提高地址结构的召回率,提高地址识别效率。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请一个实施例的结合RPA和AI的地址识别方法的流程图;
图2是根据本申请另一个实施例的结合RPA和AI的地址识别方法的流程图;
图3是根据本申请另一个实施例的结合RPA和AI的地址识别方法的流程图;
图4是根据本申请另一个实施例的结合RPA和AI的地址识别方法的流程图;
图5是根据本申请另一个实施例的结合RPA和AI的地址识别方法的流程图;
图6是根据本申请一个实施例的结合RPA和AI的地址识别装置的结构示意图;以及
图7是根据本申请一个实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本申请的申请人提供一种使用机器人来进行地址识别的思路,利用人工智能来进行地址识别是本申请实现地址识别的主要方式。
具体而言,本申请中结合机器人流程自动化(Robotic Process Automation,RPA)和文本识别的结合,实现大并发的地址识别,机器人代替人工,实现对文本中地址的自动识别,以实现对文本中地址的管理。
由于机器人只要有数据就可以7*24小时不间断工作,这样可以大大地降低人工成本,提高工作效率,且无需人工检查,提高了地址管理的效率。
下面结合具体的实施例来描述结合RPA和AI的地址识别方法和装置。
图1是根据本申请一个实施例的结合RPA和AI的地址识别方法的流程图,如图1所示,该方法包括:
步骤1,RPA系统获取待进行地址识别的文本。
其中,待进行地址识别的文本可以为任意文本,例如,聊天文本、网络上的公开文本等。文本还可以为具体场景中的文本,例如在地图导航场景中,文本可以为对用户的语音进行识别后得到的文本,或者用户在地图软件输入框中输入的文本。例如在信息点管理场景中,文本可以为用户在信息点位置发生变更时上报的变更请求中的内容,或者用户针对信息点的评论等。
步骤2,RPA系统结合文本以及地址抽取器,抽取文本中的地址以及地址中的各个成分。
其中,地址抽取器可以根据上下文信息、地址本身中较常见的内容以及地址结构知识库中的地址结构来构建抽取器。例如,地址抽取器中可以设置有至少一个地址提取模板,用于提取文本中的地址以及地址中的各个成分。
其中,地址中的各个成分可以包括以下成分中的至少一种:省成分、市成分、区成分、街道成分、信息点名称。可选的,地址中的各个成分还可以包括以下成分中的至少一种:低置信信息点名称和疑似信息点名称。
其中,在地址中的各个成分为上述成分中的至少一种的情况下,一个地址提取模板例如可以为<地址、家庭地址><*><省><*><市><*><区><*><县><*><街道><*>。其中,<省>之前的“*”所代表的内容可以与地址结构知识库中各地址结构中的省名称进行匹配,确定文本中的省名称;<市>之前的“*”所代表的内容可以与地址结构知识库中各地址结构中的市名称进行匹配,确定文本中的市名称;<区>之前的“*”所代表的内容可以与地址结构知识库中各地址结构中的区名称进行匹配,确定文本中的区名称;<县>之前的“*”所代表的内容可以与地址结构知识库中各地址结构中的县名称进行匹配,确定文本中的县名称;<街道>之前的“*”所代表的内容可以作为文本中的街道信息。
其中,另一个地址提取模板例如可以为<地址、家庭地址><*>,其中,可以将<地址、家庭地址>之后的“*”所代表的内容与地址结构知识库中各地址结构中的无重名的信息点名称进行匹配,确定文本中的信息点名称。针对某些存在重名,需要通过上下文限定的信息点名称,可以通过以下地址提取模板提取,例如<地址、家庭地址><信息点名称之前需要出现的关键词><*>,将该“*”所代表的内容与地址结构知识库中各地址结构中存在重名的信息点名称进行匹配,确定文本中的低置信信息点名称。
另外,还可以通过以下地址提取模板提取疑似信息点名称,例如,<地址、家庭地址><疑似信息点名称之前需要出现的关键词><*>,将该“*”所代表的内容直接作为疑似信息点名称。
步骤3,RPA系统根据地址中各个成分的行政区划代码,确定地址的行政区划代码。
其中,行政区划代码,也称行政代码,是国家行政机关的识别符号。例如,北京市的行政区划代码为(110000000000),北京市东城区的行政区划代码为(110101000000)。
其中,在地址中存在相互冲突的成分时,例如若地址为“北京市东城区中关村”,其中,中关村并不属于东城区,相互冲突。针对这种情况,需要根据地址中各个成分的行政区划代码,确定地址可能要描述的区域的行政区划代码。
步骤4,RPA系统结合地址、地址的行政区划代码以及地址结构知识库,获取地址对应的地址结构。
其中,地址结构知识库中可以包括已有的各个正确的地址结构,以及地址结构中的各个成分。RPA系统可以先根据地址的行政区划代码确定待检索区域,然后结合地址以及地址结构知识库,获取待检索区域内与地址相似的地址结构,将待检索区域内与地址相似的地址结构,确定为地址对应的地址结构。
步骤5,RPA系统根据地址对应的地址结构,对地址进行补全和校正,得到地址识别结果。
其中,若与对应的地址结构相比,确定地址中存在某些成分,例如,缺少区成分,则将对应的地址结构中的区成分补充到地址中,实现对地址的补全;若与对应的地址结构相比,地址中的县成分与对应的地址结构中的县成分不一致,则将地址中的县成分替换为对应的地址结构中的县成分,实现对地址的校正,将经过补全和校正的地址作为地址识别结果,从而提高识别到的地址的准确率,且提高地址识别效率,降低地址识别成本。
本申请实施例中,RPA系统抽取文本中的地址以及地址中的各个成分后,先根据地址中各个成分的行政区划代码,确定地址的行政区划代码;结合地址、地址的行政区划代码以及地址结构知识库,获取地址对应的地址结构;根据地址对应的地址结构,对地址进行补全和校正,得到地址识别结果,从而在地址为新地址或者包含错误的地址时,能够对地址中的错误进行校正,对地址中缺少的成分进行补全,提高地址结构的召回率,提高地址识别效率。
需要说明的是,为了进一步提高地址识别效率,确定得到的地址的行政区划代码需要尽量准确,因此,步骤3的实现方式可以如下图2示例所示:
步骤31,RPA系统获取地址中各个成分的行政区划代码。
其中,RPA系统可以获取地址中省成分的行政区划代码、市成分的行政区划代码、县成分的行政区划代码、街道成分的行政区划代码、信息点名称成分的行政区划代码等。
步骤32,RPA系统根据地址中各个成分的行政区划代码,生成行政区划代码集合。
步骤33,RPA系统针对行政区划代码集合中的每个待处理的行政区划代码,判断行政区划代码集合中是否存在包括待处理的行政区划代码中非零数字串的第一行政区划代码。
步骤34,在行政区划代码集合中存在第一行政区划代码时,RPA系统删除行政区划代码集合中待处理的行政区划代码。
其中,假设地址为“北京市东城区中关村”,待处理的行政区划代码为北京市的行政区划代码(110000000000),第一行政区划代码例如可以为东城区的行政区划代码为(110101000000),或者中关村的行政区划代码(110108011000)。其中,东城区的行政区划代码和中关村的行政区划代码中包括北京市的行政区划代码中的非零字符串(11)。其中,根据地址中各个成分的行政区划代码,是为了确定地址可能要描述的区域的行政区划代码,而东城区的行政区划代码和中关村的行政区划代码都对北京市进行了描述,而北京市的行政区划代码的出现次数是远远大于东城区的行政区划代码和中关村的行政区划代码的出现次数的,为了精确确定地址的行政区划代码,可以对多个行政区划代码同时描述的大的区域的行政区划代码进行删除处理。
步骤35,RPA系统根据行政区划代码集合中各个行政区划代码的出现次数,确定所述地址的行政区划代码。
其中,为了进一步提高确定得到的地址的行政区划代码的准确度,RPA系统执行步骤35的过程例如可以为,RPA系统根据行政区划代码集合中各个行政区划代码的出现次数,获取对应的出现次数最大的第二行政区划代码;RPA系统将第二行政区划代码,确定为地址的行政区划代码。
其中,行政区划代码的出现次数,可以为行政区划代码对应的成分的使用次数、被检索次数等等,可以根据实际需要进行设定。
需要说明的是,为了进一步提高地址识别效率,获取的与地址对应的地址结构需要尽量与地址相似,且计算量需要尽量小,因此,步骤4的实现方式可以如以下图3示例所示:
步骤41,RPA系统结合地址的行政区划代码以及地址结构知识库,获取第一候选地址结构集合,第一候选地址结构集合中的第一候选地址结构,为对应的行政区划代码中包括地址的行政区划代码中非零数字串的行政区划代码。
其中,以地址为“北京市东城区中关村”为例,若确定地址的行政区划代码为中关村的行政区划代码(110108011000),则第一候选地址结构集合中的第一候选地址结构中都需要包括中关村的行政区划代码中的非零数字串“110108011”。
步骤42,RPA系统采用倒排索引方式对第一候选地址结构集合进行检索,获取第二候选地址结构集合,第二候选地址结构集合中的第二候选地址结构,为包括地址的至少第一预设数量个成分的第一候选地址结构。
其中,倒排索引指的是预先建立地址结构知识库中地址结构的每个成分与包括所述成分的地址结构之间的对应关系,例如,与成分“中关村”建立由对应关系的地址结构例如可以为“北京市”、“北京市海淀区”等。
其中,为了提高倒排索引的效率,可以针对地址结构知识库中较小区域内的每个地址结构建立倒排索引,例如,针对“中关村”区域内的每个地址结构与各个成分建立对应关系。
其中,RPA系统采用倒排索引方式对第一候选地址结构集合进行检索,获取第二候选地址结构集合的方式可以为,RPA系统针对地址中的每个成分,获取地址的行政区划代码所确定的区域的倒排索引,针对地址中的每个成分,查询上述倒排索引,获取第二候选地址结构集合。
步骤43,RPA系统根据地址以及第二候选地址结构集合,确定地址对应的地址结构。
需要说明的是,为了进一步提高地址与对应的地址结构之间的相似度,在图3所示示例的基础上,RPA系统执行步骤43的方式可以如以下图4示例所示,
步骤431,RPA系统获取地址中各个成分的权重。
其中,在地址中,一般越靠前的成分越重要,越靠后的成分越不重要,因此,可以为地址中的不同成分设置不同的权重,例如,将靠前的成分的权重设置成较大数值,将靠后的成分的权重设置成较小数值,以便在后续多个地址结构与地址之间的编辑距离一致时,选择其中靠后成分存在区别的地址结构作为与地址对应的地址结构,提高地址与对应的地址结构之间的相似度。
步骤432,RPA系统针对第二候选地址结构集合中的每个第二候选地址结构,确定第二候选地址结构中各个成分与地址中各个成分之间的编辑距离。
其中,编辑距离是针对二个字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
步骤433,RPA系统根据第二候选地址结构中各个成分与地址中各个成分之间的编辑距离,以及地址中各个成分的权重,确定第二候选地址结构与地址之间的编辑距离。
其中,RPA系统执行步骤433的方式可以为,RPA系统针对第二候选地址结构中的每个成分,根据成分与地址中相应成分之间的编辑距离,以及成分的权重,确定成分的加权后编辑距离;RPA系统对第二候选地址结构中各个成分的加权后编辑距离进行加和,得到第二候选地址结构与地址之间的编辑距离。
步骤434,RPA系统根据地址与各个第二候选地址结构之间的编辑距离,确定地址对应的地址结构。
其中,RPA系统执行步骤434的方式可以为,RPA系统根据地址与各个第二候选地址结构之间的编辑距离,对各个第二候选地址结构进行排序,获取排序结果;RPA系统将排序结果中排序在前的第二预设数量的第二候选地址结构,确定为地址对应的地址结构。其中,第二预设数量例如可以为5或者10等。
需要说明的是,为了进一步提高地址识别的准确度,在图1所示示例的基础上,RPA系统执行步骤5的方式可以如以下图5示例所示,
步骤51,RPA系统对地址的行政区划代码进行反查,获取地址的行政区划代码所表征的成分。
进一步地,为了确保地址对应的地址结构与地址位于同一个区域,步骤51之前,RPA系统还可以执行以下过程:RPA系统判断地址对应的地址结构中,是否存在对应的行政区划代码中未包括地址的行政区划代码的第三地址结构;在存在第三地址结构时,RPA系统从地址对应的地址结构中删除第三地址结构。
步骤52,RPA系统根据地址的行政区划代码所表征的成分对地址进行补全和校正,得到校正后的地址。
其中,以地址为“北京市东城区中关村”为例,若确定地址的行政区划代码为中关村的行政区划代码(110108011000),则地址的行政区划代码所表征的成分包括:北京市、海淀区和中关村。则RPA系统根据地址的行政区划代码所表征的成分对地址进行补全和校正的过程为,将地址“北京市东城区中关村”中的“东城区”替换为“海淀区”,得到校正后的地址。
其中,以地址为“北京市中关村”为例,若确定地址的行政区划代码为中关村的行政区划代码(110108011000),则地址的行政区划代码所表征的成分包括:北京市、海淀区和中关村。则RPA系统根据地址的行政区划代码所表征的成分对地址进行补全和校正的过程为,在地址“北京市中关村”中补充“海淀区”,得到“北京市海淀区中关村”。
步骤53,RPA系统根据校正后的地址,以及地址对应的地址结构,确定校正后的地址与对应的地址结构之间的地理距离。
步骤54,在地理距离大于预设距离阈值时,RPA系统将校正后的地址确定为地址识别结果。
步骤55,在地理距离小于等于预设距离阈值时,RPA系统根据地址对应的地址结构,确定地址识别结果。
其中,预设距离阈值例如可以为50米、100米等。在地理距离大于预设距离阈值时,RPA系统可以确定校正后的地址是地址结构知识库中未存在的新地址,直接将校正后的地址确定为地址识别结果;在地理距离小于等于预设距离阈值时,RPA系统可以确定校正后的地址存在描述错误,可以将地址对应的地址结构作为地址识别结果。
另外,确定地址识别结果之后,RPA系统可以将校正后的地址更新到地址结构知识库中,以实现对地址结构知识库的实时更新,进而进一步提高后续文本的地址识别效率。
为了实现上述实施例,本申请还提出了一种结合RPA和AI的地址识别装置。图6是根据本申请一个实施例的结合RPA和AI的地址识别装置的结构示意图,如图6所示,该结合RPA和AI的地址识别装置应用于RPA系统,包括:第一获取模块10、抽取模块20、确定模块30、第二获取模块40和处理模块50,其中,
第一获取模块10,用于获取待进行地址识别的文本;
抽取模块20,用于结合所述文本以及地址抽取器,抽取所述文本中的地址以及所述地址中的各个成分;
确定模块30,用于根据所述地址中各个成分的行政区划代码,确定所述地址的行政区划代码;
第二获取模块40,用于结合所述地址、所述地址的行政区划代码以及地址结构知识库,获取所述地址对应的地址结构;
处理模块50,用于根据所述地址对应的地址结构,对所述地址进行补全和校正,得到地址识别结果。
在本申请的一个实施例中,确定模块30,具体用于:
获取所述地址中各个成分的行政区划代码;
根据所述地址中各个成分的行政区划代码,生成行政区划代码集合;
针对所述行政区划代码集合中的每个待处理的行政区划代码,判断所述行政区划代码集合中是否存在包括所述待处理的行政区划代码中非零数字串的第一行政区划代码;
在所述行政区划代码集合中存在所述第一行政区划代码时,删除所述行政区划代码集合中所述待处理的行政区划代码;
根据所述行政区划代码集合中各个行政区划代码的出现次数,确定所述地址的行政区划代码。
在本申请的一个实施例中,确定模块30,具体用于:
根据所述行政区划代码集合中各个行政区划代码的出现次数,获取对应的出现次数最大的第二行政区划代码;
将所述第二行政区划代码,确定为所述地址的行政区划代码。
在本申请的一个实施例中,第二获取模块40,具体用于:
结合所述地址的行政区划代码以及地址结构知识库,获取第一候选地址结构集合,所述第一候选地址结构集合中的第一候选地址结构,为对应的行政区划代码中包括所述地址的行政区划代码中非零数字串的行政区划代码;
采用倒排索引方式对所述第一候选地址结构集合进行检索,获取第二候选地址结构集合,所述第二候选地址结构集合中的第二候选地址结构,为包括所述地址的至少第一预设数量个成分的第一候选地址结构;
根据所述地址以及所述第二候选地址结构集合,确定所述地址对应的地址结构。
在本申请的一个实施例中,第二获取模块40,具体用于:
获取所述地址中各个成分的权重;
针对所述第二候选地址结构集合中的每个第二候选地址结构,确定所述第二候选地址结构中各个成分与所述地址中各个成分之间的编辑距离;
根据所述第二候选地址结构中各个成分与所述地址中各个成分之间的编辑距离,以及所述地址中各个成分的权重,确定所述第二候选地址结构与所述地址之间的编辑距离;
根据所述地址与各个第二候选地址结构之间的编辑距离,确定所述地址对应的地址结构。
在本申请的一个实施例中,第二获取模块40,具体用于:
针对所述第二候选地址结构中的每个成分,根据所述成分与所述地址中相应成分之间的编辑距离,以及所述成分的权重,确定所述成分的加权后编辑距离;
对所述第二候选地址结构中各个成分的加权后编辑距离进行加和,得到所述第二候选地址结构与所述地址之间的编辑距离。
在本申请的一个实施例中,第二获取模块40,具体用于:
根据所述地址与各个第二候选地址结构之间的编辑距离,对各个第二候选地址结构进行排序,获取排序结果;
将所述排序结果中排序在前的第二预设数量的第二候选地址结构,确定为所述地址对应的地址结构。
在本申请的一个实施例中,处理模块50,具体用于:
对所述地址的行政区划代码进行反查,获取所述地址的行政区划代码所表征的成分;
根据所述地址的行政区划代码所表征的成分对所述地址进行补全和校正,得到校正后的地址;
根据所述校正后的地址,以及所述地址对应的地址结构,确定所述校正后的地址与对应的地址结构之间的地理距离;
在所述地理距离大于预设距离阈值时,将所述校正后的地址确定为地址识别结果;
在所述地理距离小于等于预设距离阈值时,根据所述地址对应的地址结构,确定地址识别结果。
在本申请的一个实施例中,处理模块50,具体还用于:将所述校正后的地址更新到所述地址结构知识库中。
在本申请的一个实施例中,处理模块50,具体还用于:
判断所述地址对应的地址结构中,是否存在对应的行政区划代码中未包括所述地址的行政区划代码的第三地址结构;
在存在所述第三地址结构时,从所述地址对应的地址结构中删除所述第三地址结构。
在本申请的一个实施例中,所述地址中的各个成分包括以下成分中的至少一种:省成分、市成分、区成分、街道成分、信息点名称。
需要说明的是,前述对结合RPA和AI的地址识别方法实施例的解释说明也适用于该实施例的结合RPA和AI的地址识别装置,本申请结合RPA和AI的地址识别装置实施例中未公布的细节,此处不再赘述。
综上,本申请实施例的结合RPA和AI的地址识别装置,RPA系统抽取文本中的地址以及地址中的各个成分后,先根据地址中各个成分的行政区划代码,确定地址的行政区划代码;结合地址、地址的行政区划代码以及地址结构知识库,获取地址对应的地址结构;根据地址对应的地址结构,对地址进行补全和校正,得到地址识别结果,从而在地址为新地址或者包含错误的地址时,能够对地址中的错误进行校正,对地址中缺少的成分进行补全,提高地址结构的召回率,提高地址识别效率。
为了实现上述实施例,本申请还提出了一种计算机设备,图7是根据本申请一个实施例的计算机设备的结构示意图。如图7所示,存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。
处理器22执行所述程序时实现上述实施例中提供的地址识别方法。
进一步地,计算机设备还包括:
通信接口23,用于存储器21和处理器22之间的通信。
存储器21,用于存放可在处理器22上运行的计算机程序。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器22,用于执行所述程序时实现上述实施例所述的结合RPA和AI的地址识别方法。
如果存储器21、处理器22和通信接口23独立实现,则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23,集成在一块芯片上实现,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
处理器22可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,使得能够执行如上述实施例所述的结合RPA和AI的地址识别方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如上述实施例所述的结合RPA和AI的地址识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种结合RPA和AI的地址识别方法,其特征在于,包括:
RPA系统获取待进行地址识别的文本;
所述RPA系统结合所述文本以及地址抽取器,抽取所述文本中的地址以及所述地址中的各个成分;
所述RPA系统根据所述地址中各个成分的行政区划代码,确定所述地址的行政区划代码;
所述RPA系统结合所述地址、所述地址的行政区划代码以及地址结构知识库,获取所述地址对应的地址结构;
所述RPA系统根据所述地址对应的地址结构,对所述地址进行补全和校正,得到地址识别结果。
2.如权利要求1所述的地址识别方法,其特征在于,所述RPA系统根据所述地址中各个成分的行政区划代码,确定所述地址的行政区划代码,包括:
所述RPA系统获取所述地址中各个成分的行政区划代码;
所述RPA系统根据所述地址中各个成分的行政区划代码,生成行政区划代码集合;
所述RPA系统针对所述行政区划代码集合中的每个待处理的行政区划代码,判断所述行政区划代码集合中是否存在包括所述待处理的行政区划代码中非零数字串的第一行政区划代码;
在所述行政区划代码集合中存在所述第一行政区划代码时,所述RPA系统删除所述行政区划代码集合中所述待处理的行政区划代码;
所述RPA系统根据所述行政区划代码集合中各个行政区划代码的出现次数,确定所述地址的行政区划代码。
3.如权利要求2所述的地址识别方法,其特征在于,所述RPA系统根据所述行政区划代码集合中各个行政区划代码的出现次数,确定所述地址的行政区划代码,包括:
所述RPA系统根据所述行政区划代码集合中各个行政区划代码的出现次数,获取对应的出现次数最大的第二行政区划代码;
所述RPA系统将所述第二行政区划代码,确定为所述地址的行政区划代码。
4.如权利要求1所述的地址识别方法,其特征在于,所述RPA系统结合所述地址、所述地址的行政区划代码以及地址结构知识库,获取所述地址对应的地址结构,包括:
所述RPA系统结合所述地址的行政区划代码以及地址结构知识库,获取第一候选地址结构集合,所述第一候选地址结构集合中的第一候选地址结构,为对应的行政区划代码中包括所述地址的行政区划代码中非零数字串的行政区划代码;
所述RPA系统采用倒排索引方式对所述第一候选地址结构集合进行检索,获取第二候选地址结构集合,所述第二候选地址结构集合中的第二候选地址结构,为包括所述地址的至少第一预设数量个成分的第一候选地址结构;
所述RPA系统根据所述地址以及所述第二候选地址结构集合,确定所述地址对应的地址结构。
5.如权利要求4所述的地址识别方法,其特征在于,所述RPA系统根据所述地址以及所述第二候选地址结构集合,确定所述地址对应的地址结构,包括:
所述RPA系统获取所述地址中各个成分的权重;
所述RPA系统针对所述第二候选地址结构集合中的每个第二候选地址结构,确定所述第二候选地址结构中各个成分与所述地址中各个成分之间的编辑距离;
所述RPA系统根据所述第二候选地址结构中各个成分与所述地址中各个成分之间的编辑距离,以及所述地址中各个成分的权重,确定所述第二候选地址结构与所述地址之间的编辑距离;
所述RPA系统根据所述地址与各个第二候选地址结构之间的编辑距离,确定所述地址对应的地址结构。
6.如权利要求5所述的地址识别方法,其特征在于,所述RPA系统根据所述第二候选地址结构中各个成分与所述地址中各个成分之间的编辑距离,以及所述地址中各个成分的权重,确定所述第二候选地址结构与所述地址之间的编辑距离,包括:
所述RPA系统针对所述第二候选地址结构中的每个成分,根据所述成分与所述地址中相应成分之间的编辑距离,以及所述成分的权重,确定所述成分的加权后编辑距离;
所述RPA系统对所述第二候选地址结构中各个成分的加权后编辑距离进行加和,得到所述第二候选地址结构与所述地址之间的编辑距离。
7.如权利要求5所述的地址识别方法,其特征在于,所述RPA系统根据所述地址与各个第二候选地址结构之间的编辑距离,确定所述地址对应的地址结构,包括:
所述RPA系统根据所述地址与各个第二候选地址结构之间的编辑距离,对各个第二候选地址结构进行排序,获取排序结果;
所述RPA系统将所述排序结果中排序在前的第二预设数量的第二候选地址结构,确定为所述地址对应的地址结构。
8.如权利要求1所述的地址识别方法,其特征在于,所述RPA系统根据所述地址对应的地址结构,对所述地址进行补全和校正,得到地址识别结果,包括:
所述RPA系统对所述地址的行政区划代码进行反查,获取所述地址的行政区划代码所表征的成分;
所述RPA系统根据所述地址的行政区划代码所表征的成分对所述地址进行补全和校正,得到校正后的地址;
所述RPA系统根据所述校正后的地址,以及所述地址对应的地址结构,确定所述校正后的地址与对应的地址结构之间的地理距离;
在所述地理距离大于预设距离阈值时,所述RPA系统将所述校正后的地址确定为地址识别结果;
在所述地理距离小于等于预设距离阈值时,所述RPA系统根据所述地址对应的地址结构,确定地址识别结果。
9.如权利要求8所述的地址识别方法,其特征在于,在所述RPA系统将所述校正后的地址确定为地址识别结果之后,还包括:
将所述校正后的地址更新到所述地址结构知识库中。
10.如权利要求8所述的地址识别方法,其特征在于,在所述RPA系统对所述地址的行政区划代码进行反查,获取所述地址的行政区划代码所表征的成分之前,还包括:
所述RPA系统判断所述地址对应的地址结构中,是否存在对应的行政区划代码中未包括所述地址的行政区划代码的第三地址结构;
在存在所述第三地址结构时,所述RPA系统从所述地址对应的地址结构中删除所述第三地址结构。
11.如权利要求1所述的地址识别方法,其特征在于,所述地址中的各个成分包括以下成分中的至少一种:省成分、市成分、区成分、街道成分、信息点名称。
12.一种结合RPA和AI的地址识别装置,其特征在于,所述地址识别装置应用于RPA系统,包括:
第一获取模块,用于获取待进行地址识别的文本;
抽取模块,用于结合所述文本以及地址抽取器,抽取所述文本中的地址以及所述地址中的各个成分;
确定模块,用于根据所述地址中各个成分的行政区划代码,确定所述地址的行政区划代码;
第二获取模块,用于结合所述地址、所述地址的行政区划代码以及地址结构知识库,获取所述地址对应的地址结构;
处理模块,用于根据所述地址对应的地址结构,对所述地址进行补全和校正,得到地址识别结果。
13.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-11中任一项所述的结合RPA和AI的地址识别方法。
14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-11中任一项所述的结合RPA和AI的地址识别方法。
CN202010824850.9A 2020-08-17 2020-08-17 结合rpa和ai的地址识别方法和装置 Pending CN112148819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010824850.9A CN112148819A (zh) 2020-08-17 2020-08-17 结合rpa和ai的地址识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010824850.9A CN112148819A (zh) 2020-08-17 2020-08-17 结合rpa和ai的地址识别方法和装置

Publications (1)

Publication Number Publication Date
CN112148819A true CN112148819A (zh) 2020-12-29

Family

ID=73888732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010824850.9A Pending CN112148819A (zh) 2020-08-17 2020-08-17 结合rpa和ai的地址识别方法和装置

Country Status (1)

Country Link
CN (1) CN112148819A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906394A (zh) * 2021-03-18 2021-06-04 北京字节跳动网络技术有限公司 地址识别方法、装置、设备和存储介质
CN113935293A (zh) * 2021-12-16 2022-01-14 湖南四方天箭信息科技有限公司 地址拆分和补全方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035224A1 (en) * 2009-08-05 2011-02-10 Sipe Stanley W System and method for address recognition and correction
CN110569322A (zh) * 2019-07-26 2019-12-13 苏宁云计算有限公司 地址信息解析方法、装置、系统及数据获取方法
CN110633345A (zh) * 2019-08-16 2019-12-31 阿里巴巴集团控股有限公司 一种企业注册地址的识别方法及系统
CN110765773A (zh) * 2019-10-31 2020-02-07 北京金堤科技有限公司 地址数据获取方法以及装置
CN111291277A (zh) * 2020-01-14 2020-06-16 浙江邦盛科技有限公司 一种基于语义识别和高级语言搜索的地址标准化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035224A1 (en) * 2009-08-05 2011-02-10 Sipe Stanley W System and method for address recognition and correction
CN110569322A (zh) * 2019-07-26 2019-12-13 苏宁云计算有限公司 地址信息解析方法、装置、系统及数据获取方法
CN110633345A (zh) * 2019-08-16 2019-12-31 阿里巴巴集团控股有限公司 一种企业注册地址的识别方法及系统
CN110765773A (zh) * 2019-10-31 2020-02-07 北京金堤科技有限公司 地址数据获取方法以及装置
CN111291277A (zh) * 2020-01-14 2020-06-16 浙江邦盛科技有限公司 一种基于语义识别和高级语言搜索的地址标准化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906394A (zh) * 2021-03-18 2021-06-04 北京字节跳动网络技术有限公司 地址识别方法、装置、设备和存储介质
CN113935293A (zh) * 2021-12-16 2022-01-14 湖南四方天箭信息科技有限公司 地址拆分和补全方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN110610166B (zh) 文本区域检测模型训练方法、装置、电子设备和存储介质
CN108182972B (zh) 基于分词网络的中文疾病诊断的智能编码方法及系统
CN110705214B (zh) 一种自动编码方法及装置
CN106407311A (zh) 获取搜索结果的方法和装置
CN111382255A (zh) 用于问答处理的方法、装置、设备和介质
CN108304423A (zh) 一种信息识别方法及装置
CN110232187A (zh) 企业名称相似度识别方法、装置、计算机设备和存储介质
CN112148819A (zh) 结合rpa和ai的地址识别方法和装置
CN112069276A (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
CN112100374A (zh) 文本聚类方法、装置、电子设备及存储介质
CN112395880B (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN110688434A (zh) 一种兴趣点处理方法、装置、设备和介质
CN111291649B (zh) 图像识别方法、装置及电子设备
CN112182140A (zh) 结合rpa和ai的信息录入方法、装置、计算机设备和介质
CN114090722B (zh) 查询内容自动补全的方法及装置
CN116418705A (zh) 基于机器学习的网络资产识别方法、系统、终端及介质
CN112925874B (zh) 基于案例标记的相似代码搜索方法及系统
CN111639490B (zh) 楼盘数据处理方法、装置、电子设备和存储介质
CN108920749B (zh) 管线二三维数据更新方法、装置与计算机可读存储介质
CN113468307A (zh) 文本处理方法、装置、电子设备及存储介质
CN110955696B (zh) 数据读取方法、装置、设备和存储介质
CN112329797A (zh) 目标对象的检索方法、装置、服务器和存储介质
CN109189833B (zh) 一种知识库的挖掘方法及装置
CN110941765A (zh) 搜索意图识别方法、信息搜索方法、装置及电子设备
CN115292962B (zh) 基于轨迹抽稀的路径相似度匹配方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination