CN114970518B - 一种修正地址数据的方法和装置 - Google Patents
一种修正地址数据的方法和装置 Download PDFInfo
- Publication number
- CN114970518B CN114970518B CN202210139487.6A CN202210139487A CN114970518B CN 114970518 B CN114970518 B CN 114970518B CN 202210139487 A CN202210139487 A CN 202210139487A CN 114970518 B CN114970518 B CN 114970518B
- Authority
- CN
- China
- Prior art keywords
- unit
- network structure
- units
- address
- segmentation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/387—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种修正地址数据的方法和装置,该方法包括以下步骤:将地址库中的各个地址数据分别拆分为多个地址分段信息;根据所述多个地址分段信息,生成有向无环图DAG网络结构;基于各个单元在所述DAG网络结构中的出现频率,对所述DAG网络结构进行剪枝;根据剪枝后的DAG网络结构,输出修正后的地址数据。本申请根据各个地址数据对应的地址分段信息,构建DAG网络结构,并基于剪枝后的DAG网络结构,输出修正后的地址数据,能够提高修正地址数据的处理效率,并实现对地址数据的批量化修正。
Description
技术领域
本申请属于计算机技术领域,具体涉及一种修正地址数据的方法和装置。
背景技术
在境内外物流的运输过程中,必须要使用到地址信息,地址信息包括个人地址和公司地址,每个人写的地址都是个性化的,很难做到完全遵循统一的规则。常见的非标准的地址包括:地址内容不完整、地址内容包含符号、地址内容重复出现、地址填写顺序混乱、地址中含大量描述性词语等。而非标准的地址会影响后续的数据探索,难以从中挖掘有效特征。例如,个性化的地址会导致同一个地址有大量不同写法,人工可识别,但程序不可识别。由此可见,对地址进行标准化修正是非常必要的。
目前,现有技术主要是通过人工检查等方式对地址进行修正,效率较为低下,且由于不同的人对标准地址的定义不同,修正出来的结果也会有不同。
申请内容
本申请实施例的目的是提供一种修正地址数据的方法和装置,以解决现有技术效率较为低下的缺陷。
为了解决上述技术问题,本申请是这样实现的:
第一方面,提供了一种修正地址数据的方法,包括以下步骤:
将地址库中的各个地址数据分别拆分为多个地址分段信息;
根据所述多个地址分段信息,生成有向无环图DAG网络结构,所述DAG网络结构包括多个单元以及相邻单元之间的链条,每个地址分段信息与所述DAG网络结构中的单元相对应,所述DAG网络结构中的各个链条的方向与各个地址数据包含的多个地址分段信息在该地址数据中的排列顺序相对应;
基于各个单元在所述DAG网络结构中的出现频率,对所述DAG网络结构进行剪枝;
根据剪枝后的DAG网络结构,输出修正后的地址数据。
第二方面,提供了一种修正地址数据的装置,包括:
拆分模块,用于将地址库中的各个地址数据分别拆分为多个地址分段信息;
生成模块,用于根据所述多个地址分段信息,生成有向无环图DAG网络结构,所述DAG网络结构包括多个单元以及相邻单元之间的链条,每个地址分段信息与所述DAG网络结构中的单元相对应,所述DAG网络结构中的各个链条的方向与各个地址数据包含的多个地址分段信息在该地址数据中的排列顺序相对应;
剪枝模块,用于基于各个单元在所述DAG网络结构中的出现频率,对所述DAG网络结构进行剪枝;
输出模块,用于根据剪枝后的DAG网络结构,输出修正后的地址数据。
本申请实施例根据各个地址数据对应的地址分段信息,构建DAG网络结构,并基于剪枝后的DAG网络结构,输出修正后的地址数据,能够提高修正地址数据的处理效率,并实现对地址数据的批量化修正。
附图说明
图1是本申请实施例提供的一种修正地址数据的方法流程图;
图2是本申请实施例提供的修正地址数据的方法的一种具体实现图;
图3至图8是本申请实施例提供的DAG网络结构的示意图;
图9是本申请实施例提供的一种修正地址数据的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决现有技术中存在的问题,本申请实施例提供了一种基于DAG(DirectedAcyclic Graph,有向无环图)网络结构的地址库剪枝方法,通过将地址文本转化为图结构的形式,从而使得在筛选相似地址时,只需要找到重复单元即可,提升了算法运行效率。此外,一个地址出现的频率越高,说明这个信息被越多的用户填写过,这个信息的正确性就越高。基于此假设,本申请实施例选取相似地址中出现次数最多的地址作为标准地址,并将其他地址转换成该标准地址,解决了地址填写个性化的问题。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的修正地址数据的方法进行详细地说明。
如图1所示,为本申请实施例提供的一种修正地址数据的方法流程图,该方法包括以下步骤:
步骤101,将地址库中的各个地址数据分别拆分为多个地址分段信息。
步骤102,根据所述多个地址分段信息,生成DAG网络结构。
其中,DAG网络结构包括多个单元以及相邻单元之间的链条,每个地址分段信息与所述DAG网络结构中的单元相对应,所述DAG网络结构中的各个链条的方向与各个地址数据包含的多个地址分段信息在该地址数据中的排列顺序相对应。
具体地,可以通过执行以下步骤生成DAG网络结构:
步骤A:生成与所述地址库中的第一地址数据的多个地址分段信息对应的单元,并按照所述多个地址分段信息在所述第一地址数据中的排列顺序,通过链条连接各个地址分段信息对应的单元;其中,所述第一地址数据中首次出现的地址分段信息对应的单元为DAG网络结构的创世单元;
步骤B:从所述地址库中的其他地址数据中,选取排列顺序最靠前的地址分段信息作为当前分段信息;
步骤C:从所述DAG网络结构的创世单元开始,将所述当前分段信息依次与所述DAG网络结构中的已有单元链进行匹配,如果所述当前地址分段信息与所述DAG网络结构中的已有单元匹配成功,则执行步骤D;如果所述当前地址分段信息与所述DAG网络结构中的所有已有单元均无法匹配成功,则执行步骤F;
步骤D:更新所述已有单元在所述DAG网络结构中的出现频率,判断所述其他地址数据中是否存在位于所述当前分段信息之后的地址分段信息,如果是,则执行步骤E;否则,结束流程;
步骤E:按照所述多个地址分段信息在所述其他地址数据中的排列顺序,从所述多个地址分段信息中选取与所述当前分段信息相邻且位于所述当前分段信息之后的地址分段信息作为更新后的当前分段信息,并返回步骤C;
步骤F:创建与所述当前分段信息对应的单元,并通过链条连接所述单元以及所述单元的父单元,所述单元的父单元为所述其他地址数据中与所述当前分段信息相邻且位于所述当前地址分段信息之前的地址分段信息对应的单元;
步骤G:判断所述其他地址数据中是否存在位于所述当前分段信息之后的地址分段信息,如果是,则执行步骤F;否则,结束流程。
步骤103,基于各个单元在所述DAG网络结构中的出现频率,对所述DAG网络结构进行剪枝。
本实施例中,在基于各个单元在所述DAG网络结构中的出现频率,对所述DAG网络结构进行剪枝之前,还可以根据所述DAG网络结构中的各个单元对应的地址分段信息的类型,分别对各个单元进行类型标注,标注后的单元的类型为以下内容中的任一项:省或直辖市、市或州、县或区、乡或镇或街道、村或社区、道路、道路号或门牌号,以及小区或写字楼。
相应地,可以按照省或直辖市、市或州、县或区、乡或镇或街道、村或社区、道路、道路号或门牌号,以及小区或写字楼的顺序,基于所述DAG网络结构中的多个重复单元的出现频率,对所述DAG网络结构进行剪枝;其中,所述多个重复单元为对应同一地址分段信息的单元。
具体地,可以在所述DAG网络结构中存在类型为省或直辖市的多个重复单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为市或州的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为县或区的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为乡或镇或街道的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为村或社区的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为道路的多个重复单元,且所述多个重复单元具有共同的标记为市或州的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为道路号或门牌号的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为小区或写字楼的多个重复单元,且所述多个重复单元具有共同的标记为市或州的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为小区或写字楼的多个单元,且所述多个单元具有共同的标记为道路号的父单元的情况下,从所述多个单元选取出现频率最高的单元作为主单元,将所述多个单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径。
本实施例中,将所述多个重复单元中除主单元之外的其他单元合并至主链,具体包括:将所述主单元与所述多个重复单元中除主单元之外的其他单元的子单元连接,所述其他单元的子单元为通过链条与所述其他单元连接的单元,所述链条的方向为由所述其他单元指向所述子单元;删除所述其他单元以及与所述其他单元连接的链条。
步骤104,根据剪枝后的DAG网络结构,输出修正后的地址数据。
具体地,可以根据剪枝后的DAG网络结构,确定位于所述DAG网络结构的最末端的各个单元回溯至所述DAG网络结构的创世单元的路径;根据各个所述路径涉及的多个单元对应的地址分段信息,分别构建与所述各个单元对应的修正后的地址数据。
本申请实施例根据各个地址数据对应的地址分段信息,构建DAG网络结构,并基于剪枝后的DAG网络结构,输出修正后的地址数据,能够提高修正地址数据的处理效率,并实现对地址数据的批量化修正。
在本申请实施例中,可通过如图2所示的步骤实现地址数据的修正:
步骤201,通过分词将地址库中的地址数据拆分为多个地址分段信息。
首先,对数据库中的地址数据进行文本清洗。具体地,对原始地址中的符号做处理。由于地址中括号内的内容通常是对地址的附加说明或是用户的附言,而除“#”号和“-”号外的其他符号主要起着分隔符的作用,用于将省市区等信息切分出来,因此可通过正则表达式“(\\(|\\().+?(\\)|\\))”、“[^[:alnum:]\\-\\#]”删除地址中除“#”号和“-”外的所有符号以及括号内的内容。由于本申请实施例仅对中文地址做分析,因此需要通过正则表达式“^[\u4e00-\u9fa5]”过滤以非汉字开头的地址。
随后,将清洗好的地址数据拆分为多个地址分段信息。具体地,可使用基于LSTM+CRF神经网络算法的深度学习模型对地址进行分词,也可基于人工制定的规则对地址进行分词,本申请实例在此不做限定。
以地址数据“北京市.朝阳区.三环内潘家园街道弘善家园1单元101号(请送进来)”为例,经过文本清洗后的结果为“北京市朝阳区三环内潘家园街道弘善家园1单元101号”,然后进行分词,得到地址分段信息“北京市”、“朝阳区”、“三环内”、“潘家园街道”、“弘善家园”、“1单元”和“101号”。
步骤202,将地址分段信息添加到DAG网络结构中。
其中,DAG网络结构是由单元和链组成的一种有向无环图的结构。“有向”指的是有方向,准确的说应该是同一个方向,“无环”则指不构成闭环。在本申请实施例中,每一个地址分段信息,就是一个单元,而链条的方向则与地址中从左到右的方向一致。例如,地址[广东省、惠州市、惠阳区、秋长街道]可表示为“广东省→惠州市→惠阳区→秋长街道”,其中,广东省为惠州市的父单元,惠州市为惠阳区的父单元,以此类推。当新加入一条地址数据时,从DAG网络结构的创世单元开始,将新地址的分段信息从左到右依次与DAG网络结构中的已有单元进行匹配,如果匹配上,相当于验证并确认该单元,如果匹配不上,则创建一个新单元与其父单元进行链接。随着数据的增加,形成DAG网络结构。
如图3所示,为本申请实施例中的DAG网络结构的示意图,每个单元代表一个地址分段信息。以“安苑路”单元为例,“18号”为它的子单元,“朝阳区”为它的父单元。一个单元可以有多个子单元,但只可有一个父单元。当一个新地址“北京市、朝阳区、三环到四环之间、安苑路、奥东18小区”进入该网络结构时,首先查询当前网络结构是否包含“北京市”这一单元,如果包含则沿着该链查询其子单元中是否包含“朝阳区”,依此类推,由于“朝阳区”的子单元中不含“三环到四环之间”,因此,在“朝阳区”后加入一个新单元“三环到四环之间”,最终得到图4所示的DAG网络结构。
步骤203,计算DAG网络结构中的每个单元的出现频率。
具体地,当一个单元首次被加入DAG网络结构时,记录该单元的出现频率为1,之后该单元每被验证一次,出现频率即加1。一个单元的出现频率越大,说明该单元对应的地址分段信息被越多的地址引用并验证过,该地址分段信息的可靠性就越高。
步骤204,对DAG网络结构中的每个单元进行类型标注。
具体地,标注包含省/直辖市、市/州、县/区、乡/镇/街道、村/社区、道路、道路号/门牌号、小区/写字楼和其他。
步骤205,统一四级行政区划的信息后缀。
具体地,由于用户在填写地址时习惯不同,有些人使用简称,有些人使用全称,为了后续程序可将他们识别为同一地区,利用标准的四级行政区划数据表,统一省市区街道的后缀为全称。例如,将“广东”修改为“广东省”。
步骤206,基于DAG网络结构中的每个单元的出现频率,对DAG网络结构进行剪枝。
具体地,按照省/直辖市、市/州、县/区、乡/镇/街道、村/社区、道路、小区/写字楼的顺序,依次对DAG网络结构中的重复单元进行剪枝。
首先,对DAG网络结构中的重复省/直辖市单元进行剪枝。当一个省/直辖市字段出现在DAG网络结构的多个单元中时,选取频率最高的单元,从该单元沿着父单元回溯到创世单元的路径就是主链,将其他重复单元合并到该主链。然后,对重复的市/州单元进行剪枝,当一个市/州字段出现在DAG网络结构的多个单元中且这多个单元具有共同的省/直辖市父单元时,按照上述方法进行合并。以此类推,直到整个结构没有可进行剪枝的单元。
需要注意的是,本申请实施例假设同一个市/州内,道路名与地标名称是唯一的,因此,当一个道路、或小区/写字楼字段出现在结构的多个单元中且具有共同的市/州父单元时,即进行剪枝。
此外,当多个标记为小区/写字楼的单元有共同的父单元且父单元为道路号时,选取频率最高的单元,并将其他单元合并到该单元。
以图5为例,括号内的数字为该单元的出现频率。其中,“北京市”出现3次,出现频率分别为1,34,3。根据剪枝规则保留出现频率最高的单元,即频率为34的单元,该单元所在的链为主链。保留主链,合并其他单元,得到图6所示的DAG网络结构。“安苑路”出现在“北京市”下的4条链内,频率分别为19,1,11,3,因此,保留频率为19的单元,合并得到图7所示的DAG网络结构。“奥东”、“奥东18小区”与“奥东18”标记为小区/写字楼,它们分享同一个标记为道路号的父单元,基于剪枝规则,保留频率较高的“奥东18小区”,最终得到图8所示的DAG网络结构。
步骤207,基于剪枝后的DAG网络结构,输出标准化的地址数据,并将剪枝后的各个单元对应的地址分段信息添加至语料库。
具体地,将剪枝后的各个单元对应的地址分段信息添加至语料库,该语料库可用于下一次的地址分词。
本申请实施例通过建立DAG网络结构,对地址数据进行自动化剪枝,相较于人工处理的方式,提高了处理效率,且可对地址进行批量化处理;利用单元的出现频率对相似地址进行处理,能够相对客观地筛选出相似地址中较为标准的一条地址,解决了地址填写中常见的地址内容不完整、地址内容重复出现、地址填写顺序混乱、地址中含大量描述性词语的问题。此外,通过将每一次剪枝完成后的单元字段放入用于分词的语料库,能够提高分词的准确性。
如图9所示,为本申请实施例中的一种修正地址数据的装置的结构示意图,包括:
拆分模块910,用于将地址库中的各个地址数据分别拆分为多个地址分段信息。
生成模块920,用于根据所述多个地址分段信息,生成有向无环图DAG网络结构,所述DAG网络结构包括多个单元以及相邻单元之间的链条,每个地址分段信息与所述DAG网络结构中的单元相对应,所述DAG网络结构中的各个链条的方向与各个地址数据包含的多个地址分段信息在该地址数据中的排列顺序相对应。
具体地,生成模块920,具体用于执行以下步骤:
步骤A:生成与所述地址库中的第一地址数据的多个地址分段信息对应的单元,并按照所述多个地址分段信息在所述第一地址数据中的排列顺序,通过链条连接各个地址分段信息对应的单元;其中,所述第一地址数据中首次出现的地址分段信息对应的单元为DAG网络结构的创世单元;
步骤B:从所述地址库中的其他地址数据中,选取排列顺序最靠前的地址分段信息作为当前分段信息;
步骤C:从所述DAG网络结构的创世单元开始,将所述当前分段信息依次与所述DAG网络结构中的已有单元链进行匹配,如果所述当前地址分段信息与所述DAG网络结构中的已有单元匹配成功,则执行步骤D;如果所述当前地址分段信息与所述DAG网络结构中的所有已有单元均无法匹配成功,则执行步骤F;
步骤D:更新所述已有单元在所述DAG网络结构中的出现频率,判断所述其他地址数据中是否存在位于所述当前分段信息之后的地址分段信息,如果是,则执行步骤E;否则,结束流程;
步骤E:按照所述多个地址分段信息在所述其他地址数据中的排列顺序,从所述多个地址分段信息中选取与所述当前分段信息相邻且位于所述当前分段信息之后的地址分段信息作为更新后的当前分段信息,并返回步骤C;
步骤F:创建与所述当前分段信息对应的单元,并通过链条连接所述单元以及所述单元的父单元,所述单元的父单元为所述其他地址数据中与所述当前分段信息相邻且位于所述当前地址分段信息之前的地址分段信息对应的单元;
步骤G:判断所述其他地址数据中是否存在位于所述当前分段信息之后的地址分段信息,如果是,则执行步骤F;否则,结束流程。
剪枝模块930,用于基于各个单元在所述DAG网络结构中的出现频率,对所述DAG网络结构进行剪枝。
输出模块940,用于根据剪枝后的DAG网络结构,输出修正后的地址数据。
具体地,输出模块940,具体用于根据剪枝后的DAG网络结构,确定位于所述DAG网络结构的最末端的各个单元回溯至所述DAG网络结构的创世单元的路径;根据各个所述路径涉及的多个单元对应的地址分段信息,分别构建与所述各个单元对应的修正后的地址数据。
此外,上述装置,还包括:
标注模块,用于根据所述DAG网络结构中的各个单元对应的地址分段信息的类型,分别对各个单元进行类型标注,标注后的单元的类型为以下内容中的任一项:省或直辖市、市或州、县或区、乡或镇或街道、村或社区、道路、道路号或门牌号,以及小区或写字楼。
相应地,剪枝模块930,具体用于按照省或直辖市、市或州、县或区、乡或镇或街道、村或社区、道路、道路号或门牌号,以及小区或写字楼的顺序,基于所述DAG网络结构中的多个重复单元的出现频率,对所述DAG网络结构进行剪枝。
其中,所述多个重复单元为对应同一地址分段信息的单元。
具体地,剪枝模块930,具体用于在所述DAG网络结构中存在类型为省或直辖市的多个重复单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为市或州的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为县或区的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为乡或镇或街道的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为村或社区的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为道路的多个重复单元,且所述多个重复单元具有共同的标记为市或州的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为道路号或门牌号的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为小区或写字楼的多个重复单元,且所述多个重复单元具有共同的标记为市或州的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为小区或写字楼的多个单元,且所述多个单元具有共同的标记为道路号的父单元的情况下,从所述多个单元选取出现频率最高的单元作为主单元,将所述多个单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径。
本实施例中,所述将所述多个重复单元中除主单元之外的其他单元合并至主链,具体包括:将所述主单元与所述多个重复单元中除主单元之外的其他单元的子单元连接,所述其他单元的子单元为通过链条与所述其他单元连接的单元,所述链条的方向为由所述其他单元指向所述子单元;删除所述其他单元以及与所述其他单元连接的链条。
本申请实施例根据各个地址数据对应的地址分段信息,构建DAG网络结构,并基于剪枝后的DAG网络结构,输出修正后的地址数据,能够提高修正地址数据的处理效率,并实现对地址数据的批量化修正。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述修正地址数据的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read—Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (8)
1.一种修正地址数据的方法,其特征在于,包括以下步骤:
将地址库中的各个地址数据分别拆分为多个地址分段信息;
根据所述多个地址分段信息,生成有向无环图DAG网络结构,所述DAG网络结构包括多个单元以及相邻单元之间的链条,每个地址分段信息与所述DAG网络结构中的单元相对应,所述DAG网络结构中的各个链条的方向与各个地址数据包含的多个地址分段信息在该地址数据中的排列顺序相对应;
基于各个单元在所述DAG网络结构中的出现频率,对所述DAG网络结构进行剪枝;
根据剪枝后的DAG网络结构,输出修正后的地址数据;
所述基于各个单元在所述DAG网络结构中的出现频率,对所述DAG网络结构进行剪枝之前,还包括:
根据所述DAG网络结构中的各个单元对应的地址分段信息的类型,分别对各个单元进行类型标注,标注后的单元的类型为以下内容中的任一项:省或直辖市、市或州、县或区、乡或镇或街道、村或社区、道路、道路号或门牌号,以及小区或写字楼;
所述基于各个单元在所述DAG网络结构中的出现频率,对所述DAG网络结构进行剪枝,具体包括:
按照省或直辖市、市或州、县或区、乡或镇或街道、村或社区、道路、道路号或门牌号,以及小区或写字楼的顺序,基于所述DAG网络结构中的多个重复单元的出现频率,对所述DAG网络结构进行剪枝;
其中,所述多个重复单元为对应同一地址分段信息的单元;
所述按照省或直辖市、市或州、县或区、乡或镇或街道、村或社区、道路、道路号或门牌号,以及小区或写字楼的顺序,基于所述DAG网络结构中的多个重复单元的出现频率,对所述DAG网络结构进行剪枝,具体包括:
在所述DAG网络结构中存在类型为省或直辖市的多个重复单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为市或州的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为县或区的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为乡或镇或街道的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为村或社区的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为道路的多个重复单元,且所述多个重复单元具有共同的标记为市或州的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为道路号或门牌号的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为小区或写字楼的多个重复单元,且所述多个重复单元具有共同的标记为市或州的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为小区或写字楼的多个单元,且所述多个单元具有共同的标记为道路号的父单元的情况下,从所述多个单元选取出现频率最高的单元作为主单元,将所述多个单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个地址分段信息,生成有向无环图DAG网络结构,具体包括:
步骤A:生成与所述地址库中的第一地址数据的多个地址分段信息对应的单元,并按照所述多个地址分段信息在所述第一地址数据中的排列顺序,通过链条连接各个地址分段信息对应的单元;其中,所述第一地址数据中首次出现的地址分段信息对应的单元为DAG网络结构的创世单元;
步骤B:从所述地址库中的其他地址数据中,选取排列顺序最靠前的地址分段信息作为当前分段信息;
步骤C:从所述DAG网络结构的创世单元开始,将所述当前分段信息依次与所述DAG网络结构中的已有单元链进行匹配,如果所述当前地址分段信息与所述DAG网络结构中的已有单元匹配成功,则执行步骤D;如果所述当前地址分段信息与所述DAG网络结构中的所有已有单元均无法匹配成功,则执行步骤F;
步骤D:更新所述已有单元在所述DAG网络结构中的出现频率,判断所述其他地址数据中是否存在位于所述当前分段信息之后的地址分段信息,如果是,则执行步骤E;否则,结束流程;
步骤E:按照所述多个地址分段信息在所述其他地址数据中的排列顺序,从所述多个地址分段信息中选取与所述当前分段信息相邻且位于所述当前分段信息之后的地址分段信息作为更新后的当前分段信息,并返回步骤C;
步骤F:创建与所述当前分段信息对应的单元,并通过链条连接所述单元以及所述单元的父单元,所述单元的父单元为所述其他地址数据中与所述当前分段信息相邻且位于所述当前地址分段信息之前的地址分段信息对应的单元;
步骤G:判断所述其他地址数据中是否存在位于所述当前分段信息之后的地址分段信息,如果是,则执行步骤F;否则,结束流程。
3.根据权利要求1所述的方法,其特征在于,所述将所述多个重复单元中除主单元之外的其他单元合并至主链,具体包括:
将所述主单元与所述多个重复单元中除主单元之外的其他单元的子单元连接,所述其他单元的子单元为通过链条与所述其他单元连接的单元,所述链条的方向为由所述其他单元指向所述子单元;
删除所述其他单元以及与所述其他单元连接的链条。
4.根据权利要求1所述的方法,其特征在于,所述根据剪枝后的DAG网络结构,输出修正后的地址数据,具体包括:
根据剪枝后的DAG网络结构,确定位于所述DAG网络结构的最末端的各个单元回溯至所述DAG网络结构的创世单元的路径;
根据各个所述路径涉及的多个单元对应的地址分段信息,分别构建与所述各个单元对应的修正后的地址数据。
5.一种修正地址数据的装置,其特征在于,包括:
拆分模块,用于将地址库中的各个地址数据分别拆分为多个地址分段信息;
生成模块,用于根据所述多个地址分段信息,生成有向无环图DAG网络结构,所述DAG网络结构包括多个单元以及相邻单元之间的链条,每个地址分段信息与所述DAG网络结构中的单元相对应,所述DAG网络结构中的各个链条的方向与各个地址数据包含的多个地址分段信息在该地址数据中的排列顺序相对应;
剪枝模块,用于基于各个单元在所述DAG网络结构中的出现频率,对所述DAG网络结构进行剪枝;
输出模块,用于根据剪枝后的DAG网络结构,输出修正后的地址数据;
标注模块,用于根据所述DAG网络结构中的各个单元对应的地址分段信息的类型,分别对各个单元进行类型标注,标注后的单元的类型为以下内容中的任一项:省或直辖市、市或州、县或区、乡或镇或街道、村或社区、道路、道路号或门牌号,以及小区或写字楼;
所述剪枝模块,具体用于按照省或直辖市、市或州、县或区、乡或镇或街道、村或社区、道路、道路号或门牌号,以及小区或写字楼的顺序,基于所述DAG网络结构中的多个重复单元的出现频率,对所述DAG网络结构进行剪枝;
其中,所述多个重复单元为对应同一地址分段信息的单元;
所述剪枝模块,具体用于在所述DAG网络结构中存在类型为省或直辖市的多个重复单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为市或州的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为县或区的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为乡或镇或街道的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为村或社区的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为道路的多个重复单元,且所述多个重复单元具有共同的标记为市或州的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为道路号或门牌号的多个重复单元,且所述多个重复单元具有共同的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为小区或写字楼的多个重复单元,且所述多个重复单元具有共同的标记为市或州的父单元的情况下,从所述多个重复单元选取出现频率最高的重复单元作为主单元,将所述多个重复单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径;
在所述DAG网络结构中存在类型为小区或写字楼的多个单元,且所述多个单元具有共同的标记为道路号的父单元的情况下,从所述多个单元选取出现频率最高的单元作为主单元,将所述多个单元中除主单元之外的其他单元合并至主链,所述主链为由所述主单元沿着与其连接的链条回溯至所述DAG网络结构的创世单元的路径。
6.根据权利要求5所述的装置,其特征在于,所述生成模块,具体用于执行以下步骤:
步骤A:生成与所述地址库中的第一地址数据的多个地址分段信息对应的单元,并按照所述多个地址分段信息在所述第一地址数据中的排列顺序,通过链条连接各个地址分段信息对应的单元;其中,所述第一地址数据中首次出现的地址分段信息对应的单元为DAG网络结构的创世单元;
步骤B:从所述地址库中的其他地址数据中,选取排列顺序最靠前的地址分段信息作为当前分段信息;
步骤C:从所述DAG网络结构的创世单元开始,将所述当前分段信息依次与所述DAG网络结构中的已有单元链进行匹配,如果所述当前地址分段信息与所述DAG网络结构中的已有单元匹配成功,则执行步骤D;如果所述当前地址分段信息与所述DAG网络结构中的所有已有单元均无法匹配成功,则执行步骤F;
步骤D:更新所述已有单元在所述DAG网络结构中的出现频率,判断所述其他地址数据中是否存在位于所述当前分段信息之后的地址分段信息,如果是,则执行步骤E;否则,结束流程;
步骤E:按照所述多个地址分段信息在所述其他地址数据中的排列顺序,从所述多个地址分段信息中选取与所述当前分段信息相邻且位于所述当前分段信息之后的地址分段信息作为更新后的当前分段信息,并返回步骤C;
步骤F:创建与所述当前分段信息对应的单元,并通过链条连接所述单元以及所述单元的父单元,所述单元的父单元为所述其他地址数据中与所述当前分段信息相邻且位于所述当前地址分段信息之前的地址分段信息对应的单元;
步骤G:判断所述其他地址数据中是否存在位于所述当前分段信息之后的地址分段信息,如果是,则执行步骤F;否则,结束流程。
7.根据权利要求5所述的装置,其特征在于,所述将所述多个重复单元中除主单元之外的其他单元合并至主链,具体包括:
将所述主单元与所述多个重复单元中除主单元之外的其他单元的子单元连接,所述其他单元的子单元为通过链条与所述其他单元连接的单元,所述链条的方向为由所述其他单元指向所述子单元;
删除所述其他单元以及与所述其他单元连接的链条。
8.根据权利要求5所述的装置,其特征在于,
所述输出模块,具体用于根据剪枝后的DAG网络结构,确定位于所述DAG网络结构的最末端的各个单元回溯至所述DAG网络结构的创世单元的路径;根据各个所述路径涉及的多个单元对应的地址分段信息,分别构建与所述各个单元对应的修正后的地址数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210139487.6A CN114970518B (zh) | 2022-02-15 | 2022-02-15 | 一种修正地址数据的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210139487.6A CN114970518B (zh) | 2022-02-15 | 2022-02-15 | 一种修正地址数据的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114970518A CN114970518A (zh) | 2022-08-30 |
CN114970518B true CN114970518B (zh) | 2022-12-16 |
Family
ID=82975717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210139487.6A Active CN114970518B (zh) | 2022-02-15 | 2022-02-15 | 一种修正地址数据的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970518B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423295A (zh) * | 2016-05-24 | 2017-12-01 | 张向利 | 一种海量地址数据智能快速匹配方法 |
CN107491525A (zh) * | 2017-08-17 | 2017-12-19 | 小草数语(北京)科技有限公司 | 分布式地址比对方法和装置 |
CN111460069A (zh) * | 2020-03-31 | 2020-07-28 | 南京烽火天地通信科技有限公司 | 一种基于加权有向无环图的地址纠全方法 |
CN112256817A (zh) * | 2020-11-05 | 2021-01-22 | 中国科学院深圳先进技术研究院 | 一种地理编码方法、系统、终端以及存储介质 |
CN113901792A (zh) * | 2021-10-12 | 2022-01-07 | 广州汇智通信技术有限公司 | 一种快递地址标准化方法、系统和计算机程序 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818665A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 结构化地址信息的方法、装置、电子设备及存储介质 |
-
2022
- 2022-02-15 CN CN202210139487.6A patent/CN114970518B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423295A (zh) * | 2016-05-24 | 2017-12-01 | 张向利 | 一种海量地址数据智能快速匹配方法 |
CN107491525A (zh) * | 2017-08-17 | 2017-12-19 | 小草数语(北京)科技有限公司 | 分布式地址比对方法和装置 |
CN111460069A (zh) * | 2020-03-31 | 2020-07-28 | 南京烽火天地通信科技有限公司 | 一种基于加权有向无环图的地址纠全方法 |
CN112256817A (zh) * | 2020-11-05 | 2021-01-22 | 中国科学院深圳先进技术研究院 | 一种地理编码方法、系统、终端以及存储介质 |
CN113901792A (zh) * | 2021-10-12 | 2022-01-07 | 广州汇智通信技术有限公司 | 一种快递地址标准化方法、系统和计算机程序 |
Non-Patent Citations (3)
Title |
---|
Constructive concept of address normalization;Rudakova, G. M.等;《IOP Conference Series: Materials Science and Engineering》;20191231;第537卷(第5期);全文 * |
基于地址语义及树状分析的用电地址自纠错模型研究;郑爱武;《自动化与仪器仪表》;20170825(第08期);全文 * |
营销客户地址数据标准化应用分析与研究;顾安朋等;《科技与创新》;20180823(第16期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114970518A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101944094B (zh) | 网页信息提取方法和装置 | |
CN104881488B (zh) | 基于关系表的可配置信息抽取方法 | |
CN109033086A (zh) | 一种地址解析、匹配的方法及装置 | |
CN101477549B (zh) | 知识库支持下的空间数据库设计系统和方法 | |
CN104537062A (zh) | 一种地址信息抽取方法及系统 | |
CN101620636B (zh) | 一种显示表格数据的方法和装置 | |
CN103440311A (zh) | 一种地名实体识别的方法及系统 | |
CN103186524A (zh) | 一种地名识别方法和装置 | |
CN101093478A (zh) | 一种根据实体的汉语简称识别汉语全称的方法及系统 | |
CN101299217A (zh) | 一种地图信息处理的方法、装置和系统 | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
CN102346747A (zh) | 在数据模型中查找参数的方法 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
JP5645627B2 (ja) | データ入出力装置 | |
CN106777118A (zh) | 一种基于模糊字典树的地理词汇快速抽取方法 | |
CN114416892A (zh) | 一种基于自训练地址切分模型的全国地址归一化方法 | |
CN112069824B (zh) | 基于上下文概率和引证的地域识别方法、装置及介质 | |
CN114970518B (zh) | 一种修正地址数据的方法和装置 | |
CN111723164A (zh) | 地址信息的处理方法和装置 | |
CN115687935A (zh) | 语音识别的后处理方法、装置、设备及存储介质 | |
CN115774971A (zh) | 一种基于cad识图技术的端子排接线图自动审查方法 | |
CN113343652A (zh) | 文本处理方法、装置、设备及介质 | |
CN113946696A (zh) | 一种知识感知的序列到树的数学应用题求解系统 | |
CN112784015A (zh) | 信息识别方法和装置、设备、介质和程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |