CN113935293A - 地址拆分和补全方法、装置、计算机设备和存储介质 - Google Patents
地址拆分和补全方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113935293A CN113935293A CN202111539921.1A CN202111539921A CN113935293A CN 113935293 A CN113935293 A CN 113935293A CN 202111539921 A CN202111539921 A CN 202111539921A CN 113935293 A CN113935293 A CN 113935293A
- Authority
- CN
- China
- Prior art keywords
- place
- adjacent
- character
- text
- places
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及文本处理技术领域,提供了一种地址拆分和补全方法、装置、计算机设备和存储介质,所述方法包括:依次以文本中各字符为节点进行拆分和匹配,得到所述文本中存在的地点以及所述地点对应的地点类型;遍历各所述地点,根据所述地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点;根据各所述地点的最佳前置相邻地点,组合得到所述文本中的地址信息;当所述地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全所述地点数据的行政区划级别。采用本方法能够提高地址补全的准确性。
Description
技术领域
本发明属于文本处理技术领域,尤其涉及一种地址拆分和补全方法、装置、计算机设备和存储介质。
背景技术
地址补全是指对缺失的地址信息进行补全的处理,传统的地址补全通常是将所有的地址信息存储在数据库中,然后根据输入的地址关键词进行匹配。然而,由于地址信息太多且同名的地址信息也很多,导致现有补全方式准确率有所下降。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高地址补全的准确性的地址拆分和补全方法、装置、计算机设备和存储介质。
本发明提供一种地址拆分和补全方法,包括:
依次以文本中各字符为节点进行拆分和匹配,得到所述文本中存在的地点以及所述地点对应的地点类型;
遍历各所述地点,根据所述地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点;
根据各所述地点的最佳前置相邻地点,组合得到所述文本中的地址信息;
当所述地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全所述地点数据的行政区划级别。
在其中一个实施例中,所述依次以文本中各字符为节点进行拆分和匹配,得到所述文本中存在的地点以及所述地点对应的地点类型,包括:
从所述文本中的第一个字符开始遍历;
每访问到一个字符,则以当前访问的字符为节点进行拆分,得到拆分字符;所述拆分字符包括当前访问的字符以及当前访问的字符的前置字符;
将所述拆分字符与预设的地点字典进行匹配,确定所述拆分字符中存在的地点以及所述地点的地点类型,直至字符遍历结束,得到所述文本中存在的地点以及所述地点的地点类型。
在其中一个实施例中,所述遍历各所述地点,根据所述地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点,包括:
根据所述当前遍历地点的首个字符在所述文本中的位置,确定所述当前遍历地点对应的前置相邻地点;
根据所述当前遍历地点以及所述前置相邻地点的地点类型,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;
根据所述位置关系估值权重确定所述当前遍历地点的最佳前置相邻地点。
在其中一个实施例中,所述根据各所述地点的最佳前置相邻地点,组合得到所述文本中的地址信息,包括:
从最后一个地点为起始节点,往前查找各所述地点的最佳前置相邻地点,并以当前查找到的最佳前置相邻地点为新的起始节点继续往前查找各所述地点的最佳前置相邻地点,直至查找到非地点数据;
组合所查找到的最佳前置相邻地点,得到所述文本中的地址信息。
在其中一个实施例中,所述当所述地址信息中存在行政区划级别缺失的地点数据且属于同名地点的地点数据时,根据相邻地点的所述地点类型补全所述地点的行政区划级别,包括:
当所述地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据所述相邻地点的地点类型与所述地点数据的地点类型的位置关系,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;
根据所述位置关系估值权重确定所述地点数据的行政区划级别。
在其中一个实施例中,所述根据相邻地点的地点类型补全所述地点数据的行政区划级别之后,还包括:
确定行政区划级别补全后的地址信息的行政区划代码;
根据所述行政区划代码对所述地址信息进行二次补全。
一种地址拆分和补全装置,包括:
拆分匹配模块,用于依次以文本中各字符为节点进行拆分和匹配,得到所述文本中存在的地点以及所述地点对应的地点类型;
遍历确定模块,用于遍历各所述地点,根据所述地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点;
组合模块,用于根据各所述地点的最佳前置相邻地点,组合得到所述文本中的地址信息;
补全模块,用于当所述地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全所述地点数据的行政区划级别。
本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的地址拆分和补全方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的地址拆分和补全方法的步骤。
上述地址拆分和补全方法、装置、计算机设备和存储介质,通过依次以文本中各字符为节点进行拆分和匹配,得到文本中存在的地点以及地点对应的地点类型;遍历各地点,根据地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点;根据各地点的最佳前置相邻地点,组合得到文本中的地址信息;当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全地点数据的行政区划级别。该方法通过逐字拆分进行精细地点匹配且同时结合前后相邻地点的地点类型进行地点的补全,提高文本地点匹配准确率的同时,即使存在同名地点也能依靠前后相邻地点准确地补全地址。
附图说明
图1为一个实施例中地址拆分和补全方法的应用环境图。
图2为一个实施例中地址拆分和补全方法的流程示意图。
图3为一个实施例中地址拆分和补全装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请提供的地址拆分和补全方法,可以应用于如图1所示的应用环境中,该应用环境涉及终端102和服务器104。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
当终端102接收到地址补全指令时,可以由终端102单独实现上述地址拆分补全方法。也可以由终端102将地址补全指令发送给通信的服务器104,由服务器104实现上述地址拆分补全方法。以服务器104为例,具体的,服务器104依次以文本中各字符为节点进行拆分和匹配,得到文本中存在的地点以及地点对应的地点类型;服务器104遍历各地点,根据地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点;服务器104根据各地点的最佳前置相邻地点,组合得到文本中的地址信息;服务器104当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全地点数据的行政区划级别。
在一个实施例中,如图2所示,提供一种地址拆分和补全方法,以该方法应用于服务器为例进行说明,包括以下步骤:
步骤S201,依次以文本中各字符为节点进行拆分和匹配,得到文本中存在的地点以及地点对应的地点类型。
具体的,当接收到地址补全指令时,服务器获取该地址补全指令所对应的文本。该文本可以是只包括地点数据的纯地址文本,例如“湖南长沙青山路XXX号”,也可以是同时包括地点数据和非地点数据的文本,例如“我有一个快递要寄到湖南长沙青山路XXX号”。然后,服务器依次以该文本中各字符为节点,对该文本进行字符的拆分和匹配,从而确定其中属于地点的字符,得到该文本中可能存在的所有地点。同时,确定文本中的地点之后,进一步确定该地点的地点类型。地点类型包括省、市、区、县、街道、路等等用于表示具体地点行政级别的字段。
步骤S202,遍历各地点,根据地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点。
其中, 按照文本从左至右的阅读顺序,某一地点的前置相邻地点是指位于该地点之前(左方)且与该地点相邻的地点。比如“湖南省长沙青山路XXX号”中,长沙的前置相邻地点即为湖南省、青山路的前置相邻地点即为长沙。
具体的,由于本实施例是通过依次拆分字符来匹配确定文本中所存在的地点,因此,当文本中存在同名但地点类型不同的地点时,前置相邻地点可能就不只有一个地点。比如,实际地点信息中,“青山”包括“青山区”和“青山路”两个不同类型的地点。进而当服务器分别以“山”和“路”为节点拆分字符匹配时,所能够得到的地点包括“青山”以及“青山路”。而对于“XXX号”来说,“青山”以及“青山路”均是其前置相邻地点。所以,此时需要从多个前置相邻地点中确定与“XXX号”最为匹配的最佳前置相邻地点。而基于地点通常以国-省-市-区/县-街道/路-建筑的规则形式出现,因此本实施例根据地点类型从多个前置相邻地点中确定最佳前置相邻地点。比如,“XXX号”表示的是具体建筑,是一个建筑地点,而建筑地点的前置相邻地点通常为街道/路,因此可以从“青山”和“青山路”中确定“青山路”为“XXX号”的最佳前置相邻地点。应当理解的是,当某一地点的前置相邻地点有且只有一个时,服务器即可直接确定该前置相邻地点为该地点的最佳前置相邻地点。
步骤S203,根据各地点的最佳前置相邻地点,组合得到文本中的地址信息。
具体的,当服务器得到所有地点的最佳前置相邻地点之后,将所有地点的最佳前置相邻地点组合即可得到文本中完整的地址信息。
步骤S204,当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全地点数据的行政区划级别。
其中,行政区划级别是指按照地域划分行政区后所得到的级别,一级省级行政区包括省、自治区、直辖市、特别行政区,二级地级市行政区包括地级市、自治州、直辖市,三级县级行政区包括市辖区、县、自治县、县级市等,以及四级乡级行政区包括街道、镇、乡等。
具体的,由于地址信息太多,并且存在许多同名但是行政区划级别不同的地点,比如“长沙市”和“长沙县”,“青山区”和“青山路”等。因此,当组合所得到的地址信息中存在缺失行政区划级别且属于同名地点的地点数据时,服务器进一步根据相邻地点的地点类型将该地点数据的行政区划级别补全,以便进一步得到完整和准确的地址信息。比如,以地址“湖南省长沙青山路XXX号”为例,“长沙”缺失行政区划级别,无法确定其为“长沙市”还是“长沙县”,因此服务器进一步根据“长沙”的相邻地点“湖南”或者/和“青山路”确定其级别应当是市还是县,从而得到完整的地址信息。
上述地址拆分和补全方法,通过依次以文本中各字符为节点进行拆分和匹配,得到文本中存在的地点以及地点对应的地点类型;遍历各地点,根据地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点;根据各地点的最佳前置相邻地点,组合得到文本中的地址信息;当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全地点数据的行政区划级别。该方法通过逐字拆分进行精细地点匹配且同时结合前后相邻地点的地点类型进行地点的补全,提高文本地点匹配准确率的同时,即使存在同名地点也能依靠前后相邻地点准确地补全地址。
在一个实施例中,步骤S201,包括:从文本中的第一个字符开始遍历;每访问到一个字符,则以当前访问的字符为节点进行拆分,得到拆分字符;拆分字符包括当前访问的字符以及当前访问的字符的前置字符;将拆分字符与预设的地点字典进行匹配,确定拆分字符中存在的地点以及地点的地点类型,直至字符遍历结束,得到文本中存在的地点以及地点的地点类型。
其中,字符的前置字符是指位于该字符之前的所有的字符。地点字典是预先配置包括所有地点、以及各地点对应地点类型的字典文本。
具体的,当服务器需要获取文本中的地址信息时,首先对文本进行字符匹配确定文本中所包括的地点。本实施例中,服务器从文本的第一个字符开始进行遍历,每次遍历访问到一个字符,则以该字符为节点进行拆分,拆分后得到的拆分字符包括当前所访问的字符以及当前访问的字符的前置字符。比如,以“湖南省长沙青山路XXX号”为例,分别以各个字符节点遍历进行拆分所得到的拆分字符则包括:“湖”、“湖南”、“湖南省”、“湖南省长”、“湖南省长沙”、“湖南省长沙青”、“湖南省长沙青山”、“湖南省长沙青山路”、“湖南省长沙青山路XXX”以及“湖南省长沙青山路XXX号”。然后,服务器每次遍历拆分得到拆分字符后,则拿该拆分字符与预设的地点字典进行匹配,确定拆分地址中所存在的地点。当匹配到确定的地点时,同时确定该地点的地点类型。比如,以“湖南省长沙青山路XXX号”为例,拆分匹配所能够确定的地点包括:“湖南”“湖南省”“长沙”“青山”“青山路”“XXX号”等。其中,“湖南”和“湖南省”所能够确定的地点类型为省级地点,“长沙”所能够确定的地点类型包括市级地点和县级地点,“青山”所能够确定的地点类型包括区地点和街道地点等。
本实施例中,通过逐个拆分字符得到拆分字符进行匹配确定文本中所包括的地点,能够精确匹配到每个字符,确定地点匹配的准确性。
在一个实施例中,步骤S202,包括:根据当前遍历地点的首个字符在文本中的位置,确定当前遍历地点对应的前置相邻地点;根据当前遍历地点以及前置相邻地点的地点类型,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;根据位置关系估值权重确定当前遍历地点的最佳前置相邻地点。
其中,位置关系估值权重字典是预先配置的包括位置关系估值的字典,该字典中的位置关系估值根据各个地点类型之间的位置关系确定。比如,省级地点位于市级地点之后对应的位置关系估值为权重1,省级地点位于市级地点之前对应的位置关系估值为权重2,市级地点位于县级地点之前对应的位置关系估值为权重3,市级地点位于县级地点之后对应的位置关系估值为权重4。按照地址排布的规则形式,权重1需要大于权重2。同理,权重3需要大于权重。具体的权重值可以根据实际情况进行配置,在此不作限定。
具体的,当确定地点的前置相邻地点时,首先确定该地点首个字符在文本中的位置,根据首个字符的位置确定前置相邻地点。比如,以“我0有1一2个3快4递5要6寄7到8湖9南10省11长12沙13青14山15路16X17X18X19号20”为例,其中,上标为字符编号,基于计算机的表达习惯,以0开始编号。由此可见,“XXX号”在该文本中的位置是开始于第16个字符,结束于第20个字符,所以其首个字符的位置是16,因此其前置相邻地点应当是16之前的地点。在16之前,存在的相邻地点包括第13个字符开始第16个字符结束的地点“青山路”,和第13个字符开始第15个字符结束的地点“青山”。因此,前置相邻地点包括两个地点,所以服务器进一步根据当前遍历地点以及前置相邻地点的地点类型,从位置关系估值权重字典中分别获取“XXX号”与“青山路”和“青山”这两个地点的位置关系估值权重。即,由于“XXX号”为建筑地点,“青山路”为街道地点,“青山”为区地点,则从位置关系估值权重中获取建筑地点位于街道地点的位置关系估值权重,以及建筑地点位于区地点之后的位置关系估值权重。进而比较这两个位置关系估值权重,选择较大权重对应的地点为最佳前置相邻地点。例如,由于街道地点之后大多数都是建筑地点,所以建筑地点位于街道地点之后相比于位于区地点之后的可能性更高,则可以通过权重确定“青山路”为“XXX号”的最佳前置相邻地点。本实施例中,当存在多个前置相邻地点时,通过地点类型之间的位置关系确定最佳前置相邻地点,能够确保得到较为准确的最佳前置相邻地点。
在一个实施例中,步骤S203,包括:从最后一个地点为起始节点,往前查找各地点的最佳前置相邻地点,并以当前查找到的最佳前置相邻地点为新的起始节点继续往前查找各地点的最佳前置相邻地点,直至查找到非地点数据;组合所查找到的最佳前置相邻地点,得到文本中的地址信息。
具体的,当进行地点组合得到地址信息时,由于确定的是各个地点的最佳前置相邻地点,为了能够快速且准确的实现地点的组合,本实施例优选从最后一个地点为起始节点往前查找的方式组合得到文本中的地址信息。即,从最后一个地点开始首先确定地址信息中的最后一个地点,然后获取最后一个地点的最佳前置相邻地点作为倒数第二个地点,再以倒数第二个地点为新的起始节点,将倒数第二个地点的最佳前置相邻地点作为倒数第三个地点,按照该方式依次查找各个地点的最佳前置相邻地点,直到查找到非地点数据为止。比如,以“我有一个快递要寄到湖南省长沙青山路XXX号”为例,首先获取“XXX号”并以其为起始节点获取到对应的最佳前置相邻地点“青山路”,然后查找获取“青山路”的最佳前置相邻地点“长沙”,再查找获取“长沙”的最佳前置相邻地点“湖南省”,此时若再以“湖南省”为起始点往前查找,所能找到的就是非地址数据“我有一个快递要寄到”,所以此时停止查找,“湖南省”则为查找获取到的最后一个地点。获取到所有的最佳前置相邻地点之后,将其进行组合即可得到地址信息“湖南省长沙青山路XXX号”。
在一个实施例中,步骤S204,包括:当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型与地点数据的地点类型的位置关系,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;根据位置关系估值权重确定地点数据的行政区划级别。
具体的,当从文本中提取出地址信息之后,该地址信息可能不是完整的地址信息,可能存在缺失行政区划级别等情况。因此,当服务器确定地址信息中存在行政区划级别缺失的地点数据时,若该地点数据不属于同名地点,即可直接对其进行行政区划级别的补全。若该地点数据属于同名地点,则根据该地点数据对应相邻地点的地点类型与该地点数据的位置关系确定正确的行政区划级别,本实施例采用通过在预设的位置关系权重字典中获取与相应的位置关系估值权重确定。比如,“湖南省长沙青山路XXX号”中的“长沙”缺失行政区划级别,从而无法得到其为“长沙市”还是“长沙县”。因此,服务器可以根据相邻地点“湖南省”进行确定,从位置关系估值权重字典中获取市级地点位于省级地点之后的权重和县级地点位于省级地点之后的权重。而由于实际上市级地点位于省级地点之后的可能性更高于县级地点位于省级地点之后,所以从字典中获取的市级地点位于省级地点之后的权重会大于县级地点位于省级地点之后的权重。因此,当进行权重比较时,即可确定“长沙”在该地址信息中应该是为“长沙市”。本实施例中,通过相邻地点的地点类型能够实现对地点数据的行政区划级别的补全,从而确保地址的完整性。
在一个实施例中,在步骤S204之后,地址拆分和补全方法还包括:确定行政区划级别补全后的地址信息的行政区划代码;根据行政区划代码对地址信息进行二次补全。
具体的,当得到行政区划级别补全后的地址信息之后,服务器还可以进一步获取该地址信息的行政区划代码,基于行政区划代码进一步进行补全。例如,当地址信息为“湖南省岳麓区青山路XXX号”时,可以通过岳麓区行政区划代码进一步补全为“湖南省长沙市岳麓区青山路XXX号”,从而能够得到更为完整的地址信息,确保地址的准确性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供一种地址拆分和补全装置,包括:拆分匹配模块301、遍历确定模块302、组合模块303、补全模块304。
拆分匹配模块301,用于依次以文本中各字符为节点进行拆分和匹配,得到所述文本中存在的地点以及所述地点对应的地点类型。
遍历确定模块302,用于遍历各所述地点,根据地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点。
组合模块303,用于根据各地点的最佳前置相邻地点,组合得到文本中的地址信息。
补全模块304,用于当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全地点数据的行政区划级别。
在一个实施例中,拆分匹配模块301还用于从文本中的第一个字符开始遍历;每访问到一个字符,则以当前访问的字符为节点进行拆分,得到拆分字符;拆分字符包括当前访问的字符以及当前访问的字符的前置字符;将拆分字符与预设的地点字典进行匹配,确定拆分字符中存在的地点以及地点的地点类型,直至字符遍历结束,得到文本中存在的地点以及地点的地点类型。
在一个实施例中,遍历确定模块302还用于根据当前遍历地点的首个字符在文本中的位置,确定当前遍历地点对应的前置相邻地点;根据当前遍历地点以及前置相邻地点的地点类型,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;根据位置关系估值权重确定当前遍历地点的最佳前置相邻地点。
在一个实施例中,组合模块303还用于从最后一个地点为起始节点,往前查找各地点的最佳前置相邻地点,并以当前查找到的最佳前置相邻地点为新的起始节点继续往前查找各地点的最佳前置相邻地点,直至查找到非地点数据;组合所查找到的最佳前置相邻地点,得到文本中的地址信息。
在一个实施例中,补全模块304还用于当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型与地点数据的地点类型的位置关系,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;根据位置关系估值权重确定地点数据的行政区划级别。
在一个实施例中,补全模块304还用于确定行政区划级别补全后的地址信息的行政区划代码;根据行政区划代码对地址信息进行二次补全。
关于地址拆分和补全装置的具体限定可以参见上文中对于地址拆分和补全方法的限定,在此不再赘述。上述地址拆分和补全装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个地址拆分和补全方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
在一个实施例中,提供一种计算机设备,该计算机设备可以是服务器,包括处理器,存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种xx方法。示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域技术人员可以理解,本实施例中所示出的计算机设备结构,仅仅是与本发明方案相关的部分结构,并不构成对本发明所应用于其上的计算机设备的限定,具体的计算机设备可以包括更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
依次以文本中各字符为节点进行拆分和匹配,得到所述文本中存在的地点以及所述地点对应的地点类型;
遍历各所述地点,根据地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点;
根据各地点的最佳前置相邻地点,组合得到文本中的地址信息;
当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全地点数据的行政区划级别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从文本中的第一个字符开始遍历;每访问到一个字符,则以当前访问的字符为节点进行拆分,得到拆分字符;拆分字符包括当前访问的字符以及当前访问的字符的前置字符;将拆分字符与预设的地点字典进行匹配,确定拆分字符中存在的地点以及地点的地点类型,直至字符遍历结束,得到文本中存在的地点以及地点的地点类型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据当前遍历地点的首个字符在文本中的位置,确定当前遍历地点对应的前置相邻地点;根据当前遍历地点以及前置相邻地点的地点类型,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;根据位置关系估值权重确定当前遍历地点的最佳前置相邻地点。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从最后一个地点为起始节点,往前查找各地点的最佳前置相邻地点,并以当前查找到的最佳前置相邻地点为新的起始节点继续往前查找各地点的最佳前置相邻地点,直至查找到非地点数据;组合所查找到的最佳前置相邻地点,得到文本中的地址信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型与地点数据的地点类型的位置关系,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;根据位置关系估值权重确定地点数据的行政区划级别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定行政区划级别补全后的地址信息的行政区划代码;根据行政区划代码对地址信息进行二次补全。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
依次以文本中各字符为节点进行拆分和匹配,得到所述文本中存在的地点以及所述地点对应的地点类型;
遍历各所述地点,根据地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点;
根据各地点的最佳前置相邻地点,组合得到文本中的地址信息;
当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全地点数据的行政区划级别。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从文本中的第一个字符开始遍历;每访问到一个字符,则以当前访问的字符为节点进行拆分,得到拆分字符;拆分字符包括当前访问的字符以及当前访问的字符的前置字符;将拆分字符与预设的地点字典进行匹配,确定拆分字符中存在的地点以及地点的地点类型,直至字符遍历结束,得到文本中存在的地点以及地点的地点类型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据当前遍历地点的首个字符在文本中的位置,确定当前遍历地点对应的前置相邻地点;根据当前遍历地点以及前置相邻地点的地点类型,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;根据位置关系估值权重确定当前遍历地点的最佳前置相邻地点。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从最后一个地点为起始节点,往前查找各地点的最佳前置相邻地点,并以当前查找到的最佳前置相邻地点为新的起始节点继续往前查找各地点的最佳前置相邻地点,直至查找到非地点数据;组合所查找到的最佳前置相邻地点,得到文本中的地址信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型与地点数据的地点类型的位置关系,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;根据位置关系估值权重确定地点数据的行政区划级别。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定行政区划级别补全后的地址信息的行政区划代码;根据行政区划代码对地址信息进行二次补全。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种地址拆分和补全方法,其特征在于,包括:
依次以文本中各字符为节点进行拆分和匹配,得到所述文本中存在的地点以及所述地点对应的地点类型;
遍历各所述地点,根据所述地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点;
根据各所述地点的最佳前置相邻地点,组合得到所述文本中的地址信息;
当所述地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全所述地点数据的行政区划级别。
2.根据权利要求1所述的方法,其特征在于,所述依次以文本中各字符为节点进行拆分和匹配,得到所述文本中存在的地点以及所述地点对应的地点类型,包括:
从所述文本中的第一个字符开始遍历;
每访问到一个字符,则以当前访问的字符为节点进行拆分,得到拆分字符;所述拆分字符包括当前访问的字符以及当前访问的字符的前置字符;
将所述拆分字符与预设的地点字典进行匹配,确定所述拆分字符中存在的地点以及所述地点的地点类型,直至字符遍历结束,得到所述文本中存在的地点以及所述地点的地点类型。
3.根据权利要求1所述的方法,其特征在于,所述遍历各所述地点,根据所述地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点,包括:
根据所述当前遍历地点的首个字符在所述文本中的位置,确定所述当前遍历地点对应的前置相邻地点;
根据所述当前遍历地点以及所述前置相邻地点的地点类型,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;
根据所述位置关系估值权重确定所述当前遍历地点的最佳前置相邻地点。
4.根据权利要求1所述的方法,其特征在于,所述根据各所述地点的最佳前置相邻地点,组合得到所述文本中的地址信息,包括:
从最后一个地点为起始节点,往前查找各所述地点的最佳前置相邻地点,并以当前查找到的最佳前置相邻地点为新的起始节点继续往前查找各所述地点的最佳前置相邻地点,直至查找到非地点数据;
组合所查找到的最佳前置相邻地点,得到所述文本中的地址信息。
5.根据权利要求1所述的方法,其特征在于,所述当所述地址信息中存在行政区划级别缺失的地点数据且属于同名地点的地点数据时,根据相邻地点的所述地点类型补全所述地点的行政区划级别,包括:
当所述地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据所述相邻地点的地点类型与所述地点数据的地点类型的位置关系,从预设的位置关系估值权重字典中确定对应的位置关系估值权重;
根据所述位置关系估值权重确定所述地点数据的行政区划级别。
6.根据权利要求1所述的方法,其特征在于,所述根据相邻地点的地点类型补全所述地点数据的行政区划级别之后,还包括:
确定行政区划级别补全后的地址信息的行政区划代码;
根据所述行政区划代码对所述地址信息进行二次补全。
7.一种地址拆分和补全装置,其特征在于,包括:
拆分匹配模块,用于依次以文本中各字符为节点进行拆分和匹配,得到所述文本中存在的地点以及所述地点对应的地点类型;
遍历确定模块,用于遍历各所述地点,根据所述地点类型从当前遍历地点的前置相邻地点中确定当前遍历地点的最佳前置相邻地点;
组合模块,用于根据各所述地点的最佳前置相邻地点,组合得到所述文本中的地址信息;
补全模块,用于当所述地址信息中存在行政区划级别缺失且属于同名地点的地点数据时,根据相邻地点的地点类型补全所述地点数据的行政区划级别。
8.一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器用于执行所述计算机程序时实现权利要求1-6中任意一项所述的地址拆分和补全方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任意一项所述的地址拆分和补全方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111539921.1A CN113935293B (zh) | 2021-12-16 | 2021-12-16 | 地址拆分和补全方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111539921.1A CN113935293B (zh) | 2021-12-16 | 2021-12-16 | 地址拆分和补全方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113935293A true CN113935293A (zh) | 2022-01-14 |
CN113935293B CN113935293B (zh) | 2022-03-22 |
Family
ID=79288997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111539921.1A Active CN113935293B (zh) | 2021-12-16 | 2021-12-16 | 地址拆分和补全方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113935293B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101404666A (zh) * | 2008-10-06 | 2009-04-08 | 赵洪宇 | 一种基于Web页无限层采集方法 |
US20130031606A1 (en) * | 2011-07-26 | 2013-01-31 | Sony Corporation | Information processing device, information processing method and program |
CN107656913A (zh) * | 2017-09-30 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 地图兴趣点地址提取方法、装置、服务器和存储介质 |
CN110990520A (zh) * | 2019-11-28 | 2020-04-10 | 中国建设银行股份有限公司 | 一种地址编码方法、装置、电子设备和存储介质 |
US20200294127A1 (en) * | 2019-03-13 | 2020-09-17 | Comenity Llc | Capturable code for automatically formatting and addressing a text message to apply for an offer |
CN112148819A (zh) * | 2020-08-17 | 2020-12-29 | 北京来也网络科技有限公司 | 结合rpa和ai的地址识别方法和装置 |
WO2021000831A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 地址匹配方法、装置、计算机设备及存储介质 |
WO2021011094A1 (en) * | 2019-07-18 | 2021-01-21 | Microsoft Technology Licensing, Llc | Emergency text location enhancement |
US20210064368A1 (en) * | 2019-08-28 | 2021-03-04 | Micron Technology, Inc. | Command tracking |
CN112528174A (zh) * | 2020-11-27 | 2021-03-19 | 暨南大学 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
CN113536070A (zh) * | 2021-08-11 | 2021-10-22 | 汉唐信通(北京)咨询股份有限公司 | 一种地址解析方法、系统、计算机设备和存储介质 |
-
2021
- 2021-12-16 CN CN202111539921.1A patent/CN113935293B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101404666A (zh) * | 2008-10-06 | 2009-04-08 | 赵洪宇 | 一种基于Web页无限层采集方法 |
US20130031606A1 (en) * | 2011-07-26 | 2013-01-31 | Sony Corporation | Information processing device, information processing method and program |
CN107656913A (zh) * | 2017-09-30 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 地图兴趣点地址提取方法、装置、服务器和存储介质 |
US20200294127A1 (en) * | 2019-03-13 | 2020-09-17 | Comenity Llc | Capturable code for automatically formatting and addressing a text message to apply for an offer |
WO2021000831A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 地址匹配方法、装置、计算机设备及存储介质 |
WO2021011094A1 (en) * | 2019-07-18 | 2021-01-21 | Microsoft Technology Licensing, Llc | Emergency text location enhancement |
US20210064368A1 (en) * | 2019-08-28 | 2021-03-04 | Micron Technology, Inc. | Command tracking |
CN110990520A (zh) * | 2019-11-28 | 2020-04-10 | 中国建设银行股份有限公司 | 一种地址编码方法、装置、电子设备和存储介质 |
CN112148819A (zh) * | 2020-08-17 | 2020-12-29 | 北京来也网络科技有限公司 | 结合rpa和ai的地址识别方法和装置 |
CN112528174A (zh) * | 2020-11-27 | 2021-03-19 | 暨南大学 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
CN113536070A (zh) * | 2021-08-11 | 2021-10-22 | 汉唐信通(北京)咨询股份有限公司 | 一种地址解析方法、系统、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113935293B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200349175A1 (en) | Address Search Method and Device | |
CN103678708B (zh) | 一种识别预设地址的方法及装置 | |
KR101174216B1 (ko) | 지역기반의 검색어를 추천하는 시스템 및 그 방법 | |
US20130231862A1 (en) | Customizable route planning | |
CN108572958B (zh) | 数据处理方法及装置 | |
CN109661659B (zh) | 视觉定位地图存储及加载方法、装置、系统及存储介质 | |
WO2022095256A1 (zh) | 一种地理编码方法、系统、终端以及存储介质 | |
WO2022100154A1 (zh) | 基于人工智能的地址标准化方法、装置、设备和存储介质 | |
CN110990520B (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
US20200116500A1 (en) | Matching algorithm for data with different scales based on global road network features | |
CN106203494A (zh) | 一种基于内存计算的并行化聚类方法 | |
WO2017173783A1 (zh) | 兴趣点数据显示方法及终端 | |
CN104035822A (zh) | 一种低开销的高效内存去冗余方法及系统 | |
CN102073733A (zh) | 哈希表管理方法及装置 | |
CN103559177A (zh) | 一种地名识别方法及装置 | |
CN113935293B (zh) | 地址拆分和补全方法、装置、计算机设备和存储介质 | |
CN110688995B (zh) | 地图查询的处理方法,计算机可读存储介质和移动终端 | |
CN111310450A (zh) | 一种字符串分词方法、装置、设备及存储介质 | |
CN110941730B (zh) | 基于人脸特征数据偏移的检索方法与装置 | |
CN107077509B (zh) | 一种改进浏览体验的方法、装置和设备 | |
CN110909097B (zh) | 多边形电子围栏生成方法、装置、计算机设备和存储介质 | |
CN113360789A (zh) | 兴趣点数据处理方法、装置、电子设备及存储介质 | |
CN107329730B (zh) | 语音提示信息生成方法及装置 | |
CN109582744B (zh) | 一种用户满意度评分方法及装置 | |
CN111597379A (zh) | 音频搜索方法、装置、计算机设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |