CN117271693B - 基于大数据分析的交通线路到站归属地自动判定方法 - Google Patents

基于大数据分析的交通线路到站归属地自动判定方法 Download PDF

Info

Publication number
CN117271693B
CN117271693B CN202311339495.6A CN202311339495A CN117271693B CN 117271693 B CN117271693 B CN 117271693B CN 202311339495 A CN202311339495 A CN 202311339495A CN 117271693 B CN117271693 B CN 117271693B
Authority
CN
China
Prior art keywords
list
name
arrival
administrative division
place name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311339495.6A
Other languages
English (en)
Other versions
CN117271693A (zh
Inventor
周耿城
张清枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Transport Technology Co ltd
Original Assignee
China Transport Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Transport Technology Co ltd filed Critical China Transport Technology Co ltd
Priority to CN202311339495.6A priority Critical patent/CN117271693B/zh
Publication of CN117271693A publication Critical patent/CN117271693A/zh
Application granted granted Critical
Publication of CN117271693B publication Critical patent/CN117271693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供基于大数据分析的交通线路到站归属地自动判定方法,该方法通过获取交通线路的到站名,进行处理得到地名列表,与全国行政区划代码数据库进行匹配,得到代码列表及名称列表;同时获取乘车人员的地址码前四位和前六位,得到对应列表及人数;将六位代码列表与前六位列表进行匹配判断,得到归属地;若六位代码列表为空,将地名列表进行处理得到过滤列表;若过滤列表不为空,根据前四位列表和地图地名搜索进行条件判断,得到归属地,若过滤列表为空,输出归属地判定结果为失败。通过大数据分析乘车人员并结合地名的特殊处理和搜索,自动判定出交通路线到站名的归属地,通过地图地名搜索,进一步判定出区县级以下乡级的到站名对应归属地。

Description

基于大数据分析的交通线路到站归属地自动判定方法
技术领域
本发明涉及大数据分析领域,具体为基于大数据分析的交通线路到站归属地自动判定方法。
背景技术
在交通线路中,特别是大巴车的到站名,是由车站运营方人员人工自行录入。手动录入的名称有可能是某个市名,也可能是具体的某个街道、镇、县、村或者地名等。由于地名存在极大程度的重名性,特别在四级乡级行政区内尤为常见。录入的到站名格式不一,有可能出现括号进行详细地名描述,也可能是需进行中途需要换乘的路线。为此,在大数据分析过程中,无法直接根据到站名进行人员迁徙分析。急需通过一个方法,对到站名进行统一格式化,并自动判定交通线路到站名的省市归属地。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种基于大数据分析的交通线路到站归属地自动判定方法,以解决上述技术问题。
本发明提供的基于大数据分析的交通线路到站归属地自动判定方法,所述方法包括以下步骤:
S1:获取交通线路的到站名,并对所述到站名进行文本特殊分割处理,获取 到站名分割后的地名列表
S2:根据所述地名列表与全国行政区划代码数据库进行全字匹配和多字最左 匹配,得到匹配后的行政区划代码前四位市级列表及其对应的市级行政区划名称列 表、行政区划代码前六位区县级列表及其对应的区县级行政区划名称列表
S3:获取出行大数据内乘坐所述交通线路所有人员的地址码前四位和前六位,并 进行按地址码前四位和前六位进行分组计数,得到前四位列表及前四位人数列表、前六位列表及前六位人数列表
S4:若所述行政区划代码前六位区县级列表不为空,将所述行政区划代码 前六位区县级列表与前六位列表进行匹配判断,得到所述到站名的归属地;
S5:若所述行政区划代码前六位区县级列表为空,将所述地名列表进 行地名特殊过滤,得到过滤地名列表
S6:若过滤地名列表不为空,根据前四位列表和地图地名搜索进行 条件判断,得到所述到站名的归属地,若所述过滤地名列表为空,输出所述到站名的归属地判定结果为失败。
于本发明中,所述获取交通线路的到站名,并对所述到站名进行文本特殊 分割处理,具体包括:
S11:根据所述到站名进行小括号、中括号匹配,若成功匹配,则将括号内外的 文字都作为单独地名,并添加到所述地名列表内;若匹配不到,将所述到站名添加 到所述地名列表内;
S12:根据所述地名列表内的所述到站名,进行预设的关键词匹配,若成功 匹配,则取出所述到站名,并将关键词前后的文字作为单独地名添加回所述地名列表内。
于本发明中,多字最左匹配的具体逻辑为:
所述到站名的字符数大于或等于二,将匹配到的地名与所述到站名左侧对 齐,且从左至右的字符依次相等。
于本发明中,所述地址码根据全国行政区划代码数据库生成,所述地址码的前六位为对应居住地的行政区划编码,其中,所述地址码第一、二位是居住地所在省、自治区或直辖市的编码;所述地址码第三、四位是居住地所在市的编码;所述地址码第五、六位是居住地所在区或县的编码。
于本发明中,所述将所述行政区划代码前六位区县级列表与前六位列表进行匹配判断,具体包括:
S41:获取所述前六位列表与所述行政区划代码前六位区县级列表中 元素值相等的所有元素,记为第一元素值,根据所述第一元素值,获取在前六位人数列表对应的值,记为第一元素数量,根据所述第一元素值和所述第一元素数量组成前六 位新列表
S42:若所述前六位新列表为空,将所述前四位列表与所述行政区 划代码前四位市级列表进行匹配判断;
S43:若所述前六位新列表不为空,获取所述前六位新列表内中第一元素数量最多的第一元素值,并将所述第一元素值对应的行政区划名 设置为所述到站名的归属地。
于本发明中,所述将所述前四位列表与所述行政区划代码前四位市级列表进行匹配判断,具体包括:
S421:获取所述前四位列表与所述行政区划代码前四位市级列表中元 素值相等的所有元素,记为第二元素值,根据所述第二元素值,获取在前四位人数列表对应的值,记为第二元素数量,根据所述第二元素值和所述第二元素数量组成前四 位新列表
S422:若所述前四位新列表为空,输出所述到站名的归属地判定结 果为失败;
S423:若所述前四位新列表不为空,获取所述前四位新列表中第二元素数量最多的第二元素值,并将所述第二元素值对应的行政区划名设 置为所述到站名的归属地。
于本发明中,所述将所述地名列表进行地名特殊过滤,具体包括:对所述地名 列表内的每个地名进行现代汉语常用词数据库全字匹配,若存在某个地名,其整个 地名为常用词,则进行过滤去除。
于本发明中,所述根据前四位列表和地图地名搜索进行条件判断,具体 包括:
S61:分别对所述前四位列表内每个编号对应的市级行政区划,根据地图地名 搜索,在市级行政区划内进行地名全字段匹配搜索,搜索的关键字内容为过滤地名列 表内的所有地名,并对列表内每个编号的所有地名搜索结果进行汇总计数;
S62:获取所述前四位列表在地图地名搜索进行地名全字段匹配搜索后 得到的汇总计数中计数最多对应的编号,将所述编号对应的行政区划名作为该到站名 的归属地。
本发明提供基于大数据分析的交通线路到站归属地自动判定方法,所述方法通过 获取交通线路的到站名,并对所述到站名进行文本特殊分割处理,获取到站名分割 后的地名列表;根据所述地名列表与全国行政区划代码数据库进行全字匹配和多 字最左匹配,得到匹配后的行政区划代码前四位市级列表及其对应的市级行政区划 名称列表、行政区划代码前六位区县级列表及其对应的区县级行政区划名 称列表;获取出行大数据内乘坐所述交通线路所有人员的地址码前四位和前六位, 并进行按地址码前四位和前六位进行分组计数,得到前四位列表及前四位人数列表、前六位列表及前六位人数列表;若所述行政区划代码前六位区县级列 表不为空,将所述行政区划代码前六位区县级列表与前六位列表进行匹 配判断,得到所述到站名的归属地;若所述行政区划代码前六位区县级列表为 空,将所述地名列表进行地名特殊过滤,得到过滤地名列表;若过滤地名列表不为空,根据前四位列表和地图地名搜索进行条件判断,得到所述到站名的归属地,若所述过滤地名列表为空,输出所述到站名的归属地判定结果为失 败,产生的有益效果包括:
1、由于采用大数据分析乘车人员所属的行政区划编码并结合地名的特殊处理和搜索,可以自动判定出交通路线到站名的归属地;
2、由于采用全国行政区划代码数据库,可先根据文本特殊分割处理后的到站名进行市级或区县级归属地的离线匹配,无需经过网络请求进行在线匹配,提高匹配速度;
3、由于采用现代汉语常用词数据库,在地图地名搜索进行地名搜索前,可过 滤掉一些太过常用的地名,可减少地图地名搜索接口调用次数,减少接口费用,并提高 地名判定准确率;
4、由于采用地图地名搜索,可进一步进行地名搜索,可搜索到四级乡级行政 区,如街道、镇、乡、民族乡、苏木、民族苏木、县辖区等,进一步判定出区县级以下乡级的到 站名对应归属地。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明的一示例性实施例示出的基于大数据分析的交通线路到站归属地自动判定方法的流程图;
图2为本发明的一示例性实施例示出的基于大数据分析的交通线路到站归属地自动判定方法中步骤S1的流程图;
图3为本发明的一示例性实施例示出的基于大数据分析的交通线路到站归属地自动判定方法中步骤S4的流程图;
图4为本发明的一示例性实施例示出的基于大数据分析的交通线路到站归属地自动判定方法中步骤S42的流程图;
图5为本发明的一示例性实施例示出的基于大数据分析的交通线路到站归属地自动判定方法中步骤S6的流程图。
具体实施方式
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
图1为本发明的一示例性实施例示出的基于大数据分析的交通线路到站归属地自动判定方法的流程图;
如图1所示,本发明提供的基于大数据分析的交通线路到站归属地自动判定方法,所述方法包括以下步骤:
S1:获取交通线路的到站名,并对所述到站名进行文本特殊分割处理,获取 到站名分割后的地名列表
S2:根据所述地名列表与全国行政区划代码数据库进行全字匹配和多字最左 匹配,得到匹配后的行政区划代码前四位市级列表及其对应的市级行政区划名称列 表、行政区划代码前六位区县级列表及其对应的区县级行政区划名称列表
S3:获取出行大数据内乘坐所述交通线路所有人员的地址码前四位和前六位,并 进行按地址码前四位和前六位进行分组计数,得到前四位列表及前四位人数列表、前六位列表及前六位人数列表
S4:若所述行政区划代码前六位区县级列表不为空,将所述行政区划代码 前六位区县级列表与前六位列表进行匹配判断,得到所述到站名的归属地;
S5:若所述行政区划代码前六位区县级列表为空,将所述地名列表进 行地名特殊过滤,得到过滤地名列表
S6:若过滤地名列表不为空,根据前四位列表和地图地名搜索进行 条件判断,得到所述到站名的归属地,若所述过滤地名列表为空,输出所述到站名的归属地判定结果为失败。
具体的,假设有某条交通线路,其到站名用进行表示,对应在该条交通线路已 有人员出行大数据可进行数据分析。由于到站名往往不只是写一个地方名,有可能会有括 号进行详细描述,也可能会涉及换乘、中转。导致到站名内出现多个地名的情况,为此需对 该条交通线路的到站名进行文本特殊分割处理,具体过程见图2。
图2为本发明的一示例性实施例示出的基于大数据分析的交通线路到站归属地自动判定方法中步骤S1的流程图;
如图2所示,所述获取交通线路的到站名,并对所述到站名进行文本特殊分 割处理,具体包括:
S11:根据所述到站名进行小括号、中括号匹配,若成功匹配,则将括号内外的 文字都作为单独地名,并添加到所述地名列表内;若匹配不到,将所述到站名添加 到所述地名列表内;
S12:根据所述地名列表内的所述到站名,进行预设的关键词匹配,若成功 匹配,则取出所述到站名,并将关键词前后的文字作为单独地名添加回所述地名列表内。
在步骤S11中,先对到站名中的小括号、中括号进行识别匹配,若成功匹配,则 将括号内外的文字都作为单独地名,并添加到地名列表内;若匹配不到,则不进行括号 分割,直接将到站名添加到地名列表内。在步骤S12中,再对地名列表内的地 名,分别进行关键词“中转”、“转”、“换乘”、“换”识别,若识别到,则取出该地名,并将关键词 前后的文字作为单独的地名添加回地名列表内。
具体的,在步骤S2中,获取全国行政区划代码(包括历史版本),汇总形成一个数据 库。同时,最左匹配满足以下约束条件:所述到站名的字符数大于或等于二,将匹配到的 地名与所述到站名左侧对齐,且从左至右的字符依次相等。即匹配的字数必须为两个字 及其以上,且匹配的字必须包含地名左边的所有字。例如,到站名为“测试位置”,有行政区 划名称叫“测试”,则符合多字最左匹配原则;有行政区划名称叫“位置”,则不符合多字最左 匹配原则。
于本发明的一实施例中,所述地址码根据全国行政区划代码数据库生成,所述地址码的前六位为对应居住地的行政区划编码,其中,所述地址码第一、二位是居住地所在省、自治区或直辖市的编码;所述地址码第三、四位是居住地所在市的编码;所述地址码第五、六位是居住地所在区或县的编码。更进一步的,地址码通过用户在注册时,进行填写生成。
由于地址码的前六位为对应居住地的行政区划编码,因此可以基于出行大数据, 获取该条交通路线所有人员的地址码前六位,即可对到到站名的归属地进行进一步分 析判定。
假设获取出行大数据内乘坐该条交通线路所有人员的地址码前六位,并按地址码 前六位进行分组计数,得到人员地址码前六位列表及其对应的人数列表;获取 出行大数据内乘坐该条交通线路所有人员的地址码前四位,并按地址码前四位进行分组计 数,得到人员地址码前四位列表及前四位人数列表
若匹配后的行政区划代码前六位区县级列表不为空,则将人员地址码前六 位列表与列表进行进一步匹配判断,具体过程见图3。
图3为本发明的一示例性实施例示出的基于大数据分析的交通线路到站归属地自动判定方法中步骤S4的流程图;
如图3所示,所述将所述行政区划代码前六位区县级列表与前六位列表进行匹配判断,具体包括:
S41:获取所述前六位列表与所述行政区划代码前六位区县级列表中 元素值相等的所有元素,记为第一元素值,根据所述第一元素值,获取在前六位人数列表对应的值,记为第一元素数量,根据所述第一元素值和所述第一元素数量组成前六 位新列表
S42:若所述前六位新列表为空,将所述前四位列表与所述行政区 划代码前四位市级列表进行匹配判断;
S43:若所述前六位新列表不为空,获取所述前六位新列表中第一元素数量最多的第一元素值,并将所述第一元素值对应的行政区划名设 置为所述到站名的归属地。
具体的,在步骤S41中,首先筛选出列表内与列表内的元素值相等(即 行政区划编码相同)的所有元素(即行政区划编码),记为第一元素值,获取第一元素值在前 六位人数列表对应的值,记为第一元素数量,用进行表示,根据所述第一 元素值和所述第一元素数量组成新的行政区划编号列表
进一步的,若新列表为空,则进一步将人员地址码前四位列表列表与匹配后的行政区划编号前四位市级列表进行进一步匹配判断,具体过程见图 4。
图4为本发明的一示例性实施例示出的基于大数据分析的交通线路到站归属地自动判定方法中步骤S42的流程图;
如图4所示,所述将所述前四位列表与所述行政区划代码前四位市级列表进行匹配判断,具体包括:
S421:获取所述前四位列表与所述行政区划代码前四位市级列表中元 素值相等的所有元素,记为第二元素值,根据所述第二元素值,获取在前四位人数列表对应的值,记为第二元素数量,根据所述第二元素值和所述第二元素数量组成前四 位新列表
S422:若所述前四位新列表为空,输出所述到站名的归属地判定结 果为失败;
S423:若所述前四位新列表不为空,获取所述前四位新列表中第二元素数量最多的第二元素值,并将所述第二元素值对应的行政区划名设 置为所述到站名的归属地。
具体的,筛选出列表内与列表内的元素值相等(即行政区划编码相同) 的所有元素(即行政区划编码),记为第二元素值,获取第二元素值在前四位人数列表对应的值,记为第二元素数量,用进行表示,根据所述第二元素值和所述 第二元素数量组成新的行政区划编号列表。若新列表为空,则无法 判断到站名的归属地,输出所述到站名的归属地判定结果为失败。如到站名为 “三甲”或“医院”,经过上述步骤无法匹配到,那么到站名再经过地图API搜索,就会出现及 其多的三甲医院地名匹配,经过了常用词过滤,无法确定归属地。
若新列表不为空,则将人员数量列表中数值最大的那个 元素筛选出来,并将该元素对应新列表的行政区划编号作为该到站名的归 属地。
若新列表不为空,则将人员数量列表中数值最大的那个元 素筛选出来,并将该元素对应新列表的行政区划编号作为该到站名的归属 地。
具体的,在步骤S5中,将所述地名列表进行地名特殊过滤,具体包括:对所述 地名列表内的每个地名进行现代汉语常用词数据库全字匹配,若存在某个地名,其 整个地名为常用词,则进行过滤去除。如到站名为“位置”,而“位置”整个词为常用词,则需 要过滤,将过滤后的地名列表定义为
现代汉语常用词数据库可以是2008年商务印书馆出版的《现代汉语常用词表》,也可以是互联网上输入法统计的用户常用词库等。
在步骤S6中,选择行政区划代码前四位区县级列表的原因是,在区县级以下的 地名存在冲突的可能性极大,且由于归属地的划分一般仅需要具体到市级即可,为此结合 地图搜索仅需行政区划代码前四位即可满足需求,具体过程见图5。
图5为本发明的一示例性实施例示出的基于大数据分析的交通线路到站归属地自动判定方法中步骤S6的流程图。
如图5所示,所述根据前四位列表和地图地名搜索进行条件判断,具体包 括:
S61:分别对所述前四位列表内每个编号对应的市级行政区划,根据地图地名 搜索,在市级行政区划内进行地名全字段匹配搜索,搜索的关键字内容为过滤地名列 表内的所有地名,并对列表内每个编号的所有地名搜索结果进行汇总计数;
S62:获取所述前四位列表在地图地名搜索进行地名全字段匹配搜索后 得到的汇总计数中计数最多对应的编号,将所述编号对应的行政区划名作为该到站名 的归属地。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,所述步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤中,或一些特征可以忽略,或不执行。
另外,在本申请各个实施例中的各步骤可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (3)

1.基于大数据分析的交通线路到站归属地自动判定方法,其特征在于,所述方法包括以下步骤:
S1:获取交通线路的到站名,并对所述到站名/>进行文本特殊分割处理,获取到站名分割后的地名列表/>
S2:根据所述地名列表与全国行政区划代码数据库进行全字匹配和多字最左匹配,得到匹配后的行政区划代码前四位市级列表/>及其对应的市级行政区划名称列表、行政区划代码前六位区县级列表/>及其对应的区县级行政区划名称列表
S3:获取出行大数据内乘坐所述交通线路所有人员的地址码前四位和前六位,并进行按地址码前四位和前六位进行分组计数,得到前四位列表及前四位人数列表/>、前六位列表/>及前六位人数列表/>,所述地址码根据全国行政区划代码数据库生成,所述地址码的前六位为对应居住地的行政区划编码,其中,所述地址码第一、二位是居住地所在省、自治区或直辖市的编码;所述地址码第三、四位是居住地所在市的编码;所述地址码第五、六位是居住地所在区或县的编码;
S4:若所述行政区划代码前六位区县级列表不为空,将所述行政区划代码前六位区县级列表/>与前六位列表/>进行匹配判断,得到所述到站名/>的归属地,其中,所述将所述行政区划代码前六位区县级列表/>与前六位列表/>进行匹配判断,具体包括:S41:获取所述前六位列表/>与所述行政区划代码前六位区县级列表/>中元素值相等的所有元素,记为第一元素值,根据所述第一元素值,获取在前六位人数列表对应的值,记为第一元素数量,根据所述第一元素值和所述第一元素数量组成前六位新列表/>;S42:若所述前六位新列表/>为空,将所述前四位列表/>与所述行政区划代码前四位市级列表/>进行匹配判断;S43:若所述前六位新列表不为空,获取所述前六位新列表/>中第一元素数量最多的第一元素值,并将所述第一元素值对应的行政区划名设置为所述到站名/>的归属地;其中,所述将所述前四位列表/>与所述行政区划代码前四位市级列表/>进行匹配判断,具体包括:S421:获取所述前四位列表/>与所述行政区划代码前四位市级列表/>中元素值相等的所有元素,记为第二元素值,根据所述第二元素值,获取在前四位人数列表/>对应的值,记为第二元素数量,根据所述第二元素值和所述第二元素数量组成前四位新列表;S422:若所述前四位新列表/>为空,输出所述到站名/>的归属地判定结果为失败;S423:若所述前四位新列表/>不为空,获取所述前四位新列表中第二元素数量最多的第二元素值,并将所述第二元素值对应的行政区划名设置为所述到站名/>的归属地;
S5:若所述行政区划代码前六位区县级列表为空,将所述地名列表/>进行地名特殊过滤,得到过滤地名列表/>;其中,所述将所述地名列表/>进行地名特殊过滤,具体包括:对所述地名列表/>内的每个地名进行现代汉语常用词数据库全字匹配,若存在某个地名/>,其整个地名为常用词,则进行过滤去除;
S6:若过滤地名列表不为空,根据前四位列表/>和地图地名搜索/>进行条件判断,得到所述到站名/>的归属地,若所述过滤地名列表/>为空,输出所述到站名/>的归属地判定结果为失败,其中,所述根据前四位列表/>和地图地名搜索/>进行条件判断,具体包括:S61:分别对所述前四位列表/>内每个编号对应的市级行政区划,根据地图地名搜索/>,在市级行政区划内进行地名全字段匹配搜索,搜索的关键字内容为过滤地名列表/>内的所有地名,并对列表内每个编号的所有地名搜索结果进行汇总计数;S62:获取所述前四位列表/>在地图地名搜索/>进行地名全字段匹配搜索后得到的汇总计数中计数最多对应的编号,将所述编号对应的行政区划名作为该到站名/>的归属地。
2.根据权利要求1所述的基于大数据分析的交通线路到站归属地自动判定方法,其特征在于,所述获取交通线路的到站名,并对所述到站名/>进行文本特殊分割处理,具体包括:
S11:根据所述到站名进行小括号、中括号匹配,若成功匹配,则将括号内外的文字都作为单独地名,并添加到所述地名列表/>内;若匹配不到,将所述到站名/>添加到所述地名列表/>内;
S12:根据所述地名列表内的所述到站名/>,进行预设的关键词匹配,若成功匹配,则取出所述到站名/>,并将关键词前后的文字作为单独地名添加回所述地名列表内。
3.根据权利要求1所述的基于大数据分析的交通线路到站归属地自动判定方法,其特征在于,多字最左匹配的具体逻辑为:
所述到站名的字符数大于或等于二,将匹配到的地名与所述到站名/>左侧对齐,且从左至右的字符依次相等。
CN202311339495.6A 2023-10-17 2023-10-17 基于大数据分析的交通线路到站归属地自动判定方法 Active CN117271693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311339495.6A CN117271693B (zh) 2023-10-17 2023-10-17 基于大数据分析的交通线路到站归属地自动判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311339495.6A CN117271693B (zh) 2023-10-17 2023-10-17 基于大数据分析的交通线路到站归属地自动判定方法

Publications (2)

Publication Number Publication Date
CN117271693A CN117271693A (zh) 2023-12-22
CN117271693B true CN117271693B (zh) 2024-04-26

Family

ID=89202538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311339495.6A Active CN117271693B (zh) 2023-10-17 2023-10-17 基于大数据分析的交通线路到站归属地自动判定方法

Country Status (1)

Country Link
CN (1) CN117271693B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259488A (ja) * 1998-03-09 1999-09-24 Fujitsu Ltd 住所データ管理装置及び記録媒体
FR2881545A3 (fr) * 2004-01-30 2006-08-04 Sofide Soc En Commandite Par A Procede pour la determination d'un itineraire previsionnel optimal d'un vehicule.
WO2014093413A1 (en) * 2012-12-12 2014-06-19 Hale Merton G Coding system for satellite navigation system
CN106021336A (zh) * 2016-05-09 2016-10-12 厦门四方中信科技有限公司 一种对批量地址信息进行自动行政区划划分的方法
CN109284952A (zh) * 2017-07-21 2019-01-29 菜鸟智能物流控股有限公司 一种归属区域的定位方法和装置
WO2021129703A1 (zh) * 2019-12-25 2021-07-01 Oppo广东移动通信有限公司 到站提醒的方法、装置、终端及存储介质
CN114896353A (zh) * 2022-04-24 2022-08-12 中国人民公安大学 一种地理编码方法、存储介质及系统
CN115017244A (zh) * 2022-05-07 2022-09-06 内蒙古申科国土技术有限责任公司 一种地理信息大数据与人口数据融合服务社区治理的方法
CN115422887A (zh) * 2021-04-16 2022-12-02 中交信有限责任公司 一种全国客运站编码体系及方法
CN115544979A (zh) * 2022-09-30 2022-12-30 深圳市跨越新科技有限公司 一种行政地址提取方法、装置和设备及存储介质
CN116740933A (zh) * 2022-06-20 2023-09-12 浙江承今网络科技有限公司 一种公众交通出行到达目的地的数字交通号的编制方法
CN116860835A (zh) * 2023-07-28 2023-10-10 携程商旅信息服务(上海)有限公司 出行信息查询方法、系统、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11269904B2 (en) * 2019-06-06 2022-03-08 Palantir Technologies Inc. Code list builder
CN113901341A (zh) * 2021-09-30 2022-01-07 北京百度网讯科技有限公司 导航信息提示方法、装置、介质及程序产品

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259488A (ja) * 1998-03-09 1999-09-24 Fujitsu Ltd 住所データ管理装置及び記録媒体
FR2881545A3 (fr) * 2004-01-30 2006-08-04 Sofide Soc En Commandite Par A Procede pour la determination d'un itineraire previsionnel optimal d'un vehicule.
WO2014093413A1 (en) * 2012-12-12 2014-06-19 Hale Merton G Coding system for satellite navigation system
CN106021336A (zh) * 2016-05-09 2016-10-12 厦门四方中信科技有限公司 一种对批量地址信息进行自动行政区划划分的方法
CN109284952A (zh) * 2017-07-21 2019-01-29 菜鸟智能物流控股有限公司 一种归属区域的定位方法和装置
WO2021129703A1 (zh) * 2019-12-25 2021-07-01 Oppo广东移动通信有限公司 到站提醒的方法、装置、终端及存储介质
CN115422887A (zh) * 2021-04-16 2022-12-02 中交信有限责任公司 一种全国客运站编码体系及方法
CN114896353A (zh) * 2022-04-24 2022-08-12 中国人民公安大学 一种地理编码方法、存储介质及系统
CN115017244A (zh) * 2022-05-07 2022-09-06 内蒙古申科国土技术有限责任公司 一种地理信息大数据与人口数据融合服务社区治理的方法
CN116740933A (zh) * 2022-06-20 2023-09-12 浙江承今网络科技有限公司 一种公众交通出行到达目的地的数字交通号的编制方法
CN115544979A (zh) * 2022-09-30 2022-12-30 深圳市跨越新科技有限公司 一种行政地址提取方法、装置和设备及存储介质
CN116860835A (zh) * 2023-07-28 2023-10-10 携程商旅信息服务(上海)有限公司 出行信息查询方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN117271693A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
Zandbergen A comparison of address point, parcel and street geocoding techniques
KR100613416B1 (ko) 지도 정보 검색 장치 및 방법
CN101283235B (zh) 导航系统
US20090089279A1 (en) Method and Apparatus for Detecting Spam User Created Content
WO2006020088B1 (en) Location codes for destination routing
JP2000293099A (ja) 地図データベース
KR20140097805A (ko) 좌표(x, y)위치 값을 이용한 체계적인 블록번호 생성 및 그 이용한 주소매칭 서비스 방법
US20140129569A1 (en) Address extraction from a communication
JP6223652B2 (ja) 位置識別子間の関係を管理するための方法
JP4687089B2 (ja) 重複レコード検出システム、および重複レコード検出プログラム
Baldovin et al. Geocoding health data with geographic information systems: a pilot study in northeast Italy for developing a standardized data-acquiring format
CN111414357A (zh) 地址数据处理方法、装置、系统和存储介质
CN117271693B (zh) 基于大数据分析的交通线路到站归属地自动判定方法
CN111831708A (zh) 基于缺失数据的样本分析方法、装置、电子设备及介质
CN111899822A (zh) 医疗机构数据库构建方法、查询方法、装置、设备和介质
CN112069824B (zh) 基于上下文概率和引证的地域识别方法、装置及介质
Goldberg et al. Extracting geographic features from the internet to automatically build detailed regional gazetteers
CN112819593B (zh) 基于位置信息的数据分析方法、装置、设备及介质
CN108256735B (zh) 查勘派工的处理方法及终端设备
JP2005025672A (ja) 情報検索方法
TW202146850A (zh) 確定路名之處理裝置及方法
Harper et al. Evaluation of the assign open-source deterministic address-matching algorithm for allocating unique property reference numbers to general practitioner-recorded patient addresses
CN114969135A (zh) 一种个性化旅游路线推荐方法、设备及介质
CN113722580A (zh) 地址信息处理方法、装置、电子设备和计算机可读介质
JP3621614B2 (ja) 住所解析方法、装置、住所解析プログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant