CN113204612B - 一种基于先验知识的网约车相似地址识别方法 - Google Patents

一种基于先验知识的网约车相似地址识别方法 Download PDF

Info

Publication number
CN113204612B
CN113204612B CN202110444736.8A CN202110444736A CN113204612B CN 113204612 B CN113204612 B CN 113204612B CN 202110444736 A CN202110444736 A CN 202110444736A CN 113204612 B CN113204612 B CN 113204612B
Authority
CN
China
Prior art keywords
ltoreq
address
city
addresses
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110444736.8A
Other languages
English (en)
Other versions
CN113204612A (zh
Inventor
赵刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Secco Travel Technology Service Co ltd
Original Assignee
Shanghai Secco Travel Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Secco Travel Technology Service Co ltd filed Critical Shanghai Secco Travel Technology Service Co ltd
Priority to CN202110444736.8A priority Critical patent/CN113204612B/zh
Publication of CN113204612A publication Critical patent/CN113204612A/zh
Application granted granted Critical
Publication of CN113204612B publication Critical patent/CN113204612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于先验知识的网约车相似地址识别方法,包括以下步骤:S1、对于同一个城市,按经纬度划分方形单元网格;S2、初始化文本相似度模型M;S3、根据用户打车历史定位,统计城市内地址被使用次数k,记作k=f(e);S4、对单元网格内的地址,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类。本发明提供了一种基于先验知识的网约车相似地址识别方法,计算地址相似度可用于识别出相同地址,对于构建知识图谱具有重要作用;传统的文本计算相似度的方法无法有效利用先验知识,具有准确率低的问题;对于网约车服务因具有城市,经纬度两项先验知识,在此基础上,可以提升识别准确率。

Description

一种基于先验知识的网约车相似地址识别方法
技术领域
本发明涉及网约车、旅游等位置服务(LBS)领域,特别涉及一种基于先验知识的网约车相似地址识别方法。
背景技术
位置服务在互联网的发展中起重要作用,网约车行业中,需要位置服务定位司机和乘客的位置,以便司机及时找到乘客。而交通管制以及实际路况中,可用于上车点的位置是固定的几个。识别地理位置相似的点为同一个位置,把此位置作为用户常用的上车点的推荐,以及据此数据分析用户行为,构建知识图谱,提供个性化服务。
业界以前提供的是文本相似度算法和判定2个地址为同一位置。这种算法因缺少地理经纬度信息,难以准确判断是同一位置。
基于此,本发明公开了一种基于先验知识的网约车相似地址识别方法,能精确识别用户常用地址,作为推荐上车点。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于先验知识的网约车相似地址识别方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种基于先验知识的网约车相似地址识别方法,包括以下步骤:
S1、对于同一个城市,按经纬度划分方形单元网格,其起点为(0,n),(n,n),(2n,n),(3n,n)...,方形网格大小为n,城市分割为(w*n,h*n)的矩形,w*n为城市长度,h*n为城市宽度;
S2、初始化文本相似度模型M,具体操作为把该城市所有地址使用word2vec建立模型,所得相似度模型函数记作g(e1,e2);
S3、根据用户打车历史定位,统计城市内地址被使用次数k,记作k=f(e);
S4、对单元网格内的地址,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为x类,同一类的存入集合,则得到独立集合q1,q2,q3…qx;
S5、处理边界问题,按起点为(-n/2,-n/2),(n/2,n/2),(3n/2,n/2)...划分方形单元网格,处理虚线网格单元,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为y类,同一类的存入独立集合,则得到集合p1,p2,p3…py;
S6、q1,q2,q3…qx与p1,p2,p3…py含有相同元素的合并,合并规则如下所示:
I:qi(1≤i≤x)中元素若存在于pj(1≤j≤y)中,则对应的集合合并;
II:pj(1≤j≤y)中元素若存在于qi(1≤i≤x)中,则对应的集合合并;
III:qi(1≤i≤x)中元素若存在于qj(1≤j≤x)中,i≠j,则对应的集合合并;
IV:pj(1≤j≤y)中元素若存在于pi(1≤i≤y)中,i≠j,则对应的集合合并;
重复上述规则,直至不再有可合并的集合;最终形成h1,h2,h3…hw;hi∩hj=φ,(1≤i≤w,1≤j≤w,i≠j);
S7、归于一类hi(1≤i≤w)的地址中,选择用户使用最多的地址作为等价地址uAddr,其他的地址作为表征地址vAddr,构造表征地址到等价地址的映射表T;
S8、输出某城市的地址映射表T,映射表中的等价地址uAddr即为用户使用最多的常用地址,表征地址vAddr为被合并的地址;
S9、网约车中用户呼叫时,获取到城市、经纬度、导航定位地址,去T中查询到对应的等价地址uAddr展示给用户使用,作为推荐上车点。
与现有技术相比,本发明的有益效果如下:
本发明提供了一种基于先验知识的网约车相似地址识别方法,计算地址相似度可用于识别出相同地址,对于构建知识图谱具有重要作用;传统的文本计算相似度的方法无法有效利用先验知识,具有准确率低的问题;对于网约车服务因具有城市,经纬度两项先验知识,在此基础上,可以提升识别准确率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的实施例示意图之一;
图2是本发明的实施例示意图之二。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明如图1-2所示,本发明提供一种基于先验知识的网约车相似地址识别方法,包括以下步骤:
S1、对于同一个城市,按经纬度划分方形单元网格,其起点为(0,n),(n,n),(2n,n),(3n,n)...,方形网格大小为n,城市分割为(w*n,h*n)的矩形,w*n为城市长度,h*n为城市宽度(如图1所示,小圈代表地点e,小圈位于所划分的单元网格内);
S2、初始化文本相似度模型M,具体操作为把该城市所有地址使用word2vec建立模型,所得相似度模型函数记作g(e1,e2);
S3、根据用户打车历史定位,统计城市内地址被使用次数k,记作k=f(e);
S4、对单元网格内的地址,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为x类,同一类的存入集合,则得到独立集合q1,q2,q3…qx;
S5、处理边界问题,按起点为(-n/2,-n/2),(n/2,n/2),(3n/2,n/2)...划分方形单元网格,图2处理虚线网格单元,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为y类,同一类的存入独立集合,则得到集合p1,p2,p3…py;
S6、q1,q2,q3…qx与p1,p2,p3…py含有相同元素的合并,合并规则如下所示:
I:qi(1≤i≤x)中元素若存在于pj(1≤j≤y)中,则对应的集合合并;
II:pj(1≤j≤y)中元素若存在于qi(1≤i≤x)中,则对应的集合合并;
III:qi(1≤i≤x)中元素若存在于qj(1≤j≤x)中,i≠j,则对应的集合合并;
IV:pj(1≤j≤y)中元素若存在于pi(1≤i≤y)中,i≠j,则对应的集合合并;
重复上述规则,直至不再有可合并的集合;最终形成h1,h2,h3…hw;hi∩hj=φ,(1≤i≤w,1≤j≤w,i≠j);
S7、归于一类hi(1≤i≤w)的地址中,选择用户使用最多的地址作为等价地址uAddr,其他的地址作为表征地址vAddr,构造表征地址到等价地址的映射表T,
等价地址 表征地址
uAddr1 vAddr1
uAddr1 vAddr2
uAddr1 vAddr3
uAddr2 vAddr4
uAddr2 vAddr5
上表中,uAddr1,vAddr1,vAddr2,vAddr3为同一类地址;
f(uAddr1)=Max(f(e)),e∈hi={uAddr1,vAddr1,vAddr2,vAddr3};
S8、输出某城市的地址映射表T,映射表中的等价地址uAddr即为用户使用最多的常用地址,表征地址vAddr为被合并的地址;
S9、网约车中用户呼叫时,获取到城市、经纬度、导航定位地址,去T中查询到对应的等价地址uAddr展示给用户使用,作为推荐上车点。
具体的,本发明提供了一种基于先验知识的网约车相似地址识别方法,计算地址相似度可用于识别出相同地址,对于构建知识图谱具有重要作用;传统的文本计算相似度的方法无法有效利用先验知识,具有准确率低的问题;对于网约车服务因具有城市,经纬度两项先验知识,在此基础上,可以提升识别准确率。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于先验知识的网约车相似地址识别方法,其特征在于,包括以下步骤:
S1、对于同一个城市,按经纬度划分方形单元网格,其起点为(0,n),(n,n),(2n,n),(3n,n)...,方形网格大小为n,城市分割为(w*n,h*n)的矩形,w*n为城市长度,h*n为城市宽度;
S2、初始化文本相似度模型M,具体操作为把该城市所有地址使用word2vec建立模型,所得相似度模型函数记作g(e1,e2);
S3、根据用户打车历史定位,统计城市内地址被使用次数k,记作k=f(e);
S4、对单元网格内的地址,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为x类,同一类的存入集合,则得到独立集合q1,q2,q3…qx;
S5、处理边界问题,按起点为(-n/2,-n/2),(n/2,n/2),(3n/2,n/2)...划分方形单元网格,处理虚线网格单元,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为y类,同一类的存入独立集合,则得到集合p1,p2,p3…py;
S6、q1,q2,q3…qx与p1,p2,p3…py含有相同元素的合并,合并规则如下所示:
I:qi(1≤i≤x)中元素若存在于pj(1≤j≤y)中,则对应的集合合并;
II:pj(1≤j≤y)中元素若存在于qi(1≤i≤x)中,则对应的集合合并;
III:qi(1≤i≤x)中元素若存在于qj(1≤j≤x)中,i≠j,则对应的集合合并;
IV:pj(1≤j≤y)中元素若存在于pi(1≤i≤y)中,i≠j,则对应的集合合并;
重复上述规则,直至不再有可合并的集合;最终形成h1,h2,h3…hw;hi∩hj=φ,(1≤i≤w,1≤j≤w,i≠j);
S7、归于一类hi(1≤i≤w)的地址中,选择用户使用最多的地址作为等价地址uAddr,其他的地址作为表征地址vAddr,构造表征地址到等价地址的映射表T;
S8、输出某城市的地址映射表T,映射表中的等价地址uAddr即为用户使用最多的常用地址,表征地址vAddr为被合并的地址;
S9、网约车中用户呼叫时,获取到城市、经纬度、导航定位地址,去T中查询到对应的等价地址uAddr展示给用户使用,作为推荐上车点。
CN202110444736.8A 2021-04-24 2021-04-24 一种基于先验知识的网约车相似地址识别方法 Active CN113204612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110444736.8A CN113204612B (zh) 2021-04-24 2021-04-24 一种基于先验知识的网约车相似地址识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110444736.8A CN113204612B (zh) 2021-04-24 2021-04-24 一种基于先验知识的网约车相似地址识别方法

Publications (2)

Publication Number Publication Date
CN113204612A CN113204612A (zh) 2021-08-03
CN113204612B true CN113204612B (zh) 2024-05-03

Family

ID=77028277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110444736.8A Active CN113204612B (zh) 2021-04-24 2021-04-24 一种基于先验知识的网约车相似地址识别方法

Country Status (1)

Country Link
CN (1) CN113204612B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509415A (zh) * 2018-03-16 2018-09-07 南京云问网络技术有限公司 一种基于词序加权的句子相似度计算方法
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN111274811A (zh) * 2018-11-19 2020-06-12 阿里巴巴集团控股有限公司 地址文本相似度确定方法以及地址搜索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565229B2 (en) * 2018-05-24 2020-02-18 People.ai, Inc. Systems and methods for matching electronic activities directly to record objects of systems of record

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509415A (zh) * 2018-03-16 2018-09-07 南京云问网络技术有限公司 一种基于词序加权的句子相似度计算方法
CN111274811A (zh) * 2018-11-19 2020-06-12 阿里巴巴集团控股有限公司 地址文本相似度确定方法以及地址搜索方法
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法

Also Published As

Publication number Publication date
CN113204612A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
US20220215749A1 (en) Method for predicting at least one profile of the speed of a vehicle on a road network
JP6965218B2 (ja) 道路維持管理システム、道路維持管理方法及びコンピュータプログラム
Graser et al. Towards an open source analysis toolbox for street network comparison: Indicators, tools and results of a comparison of OSM and the official A ustrian reference graph
JP6314656B2 (ja) 道路交通需要予測装置及び道路交通需要予測方法
CN111581325B (zh) 一种基于时空影响距离的K-means站点区域划分方法
US20200333143A9 (en) Gps-based area recognition in vehicles
CN110967461B (zh) 一种基于gis技术实现河流水质动态分布的方法
EP2594903B1 (en) Method for representing linear features in a location content management system
US20210233393A1 (en) Systems and Methods for Improved Traffic Conditions Visualization
CN116796904A (zh) 一种轨道交通新线客流预测方法、系统、电子设备及介质
US20210134149A1 (en) Method, apparatus, and system for probe anomaly detection
CN113204612B (zh) 一种基于先验知识的网约车相似地址识别方法
CN110689180A (zh) 一种基于地理位置的智能路线规划方法及系统
CN113254561B (zh) 一种位置数据处理系统
CN105205577A (zh) 客服工单地域细化分析方法
CN112561145A (zh) 一种臭氧污染管控敏感区预报方法、存储介质及终端
CN112328725A (zh) 基于地图数据的企业地理位置归属区域的划分装置及方法
CN112163590A (zh) 一种车辆异常轨迹检测与分类方法
CN106326365B (zh) 一种基于铁路WebGIS的应用接口实现方法及应用系统
Hilario et al. Forecasting urban population distribution of Iloilo City using GIS and spatial autocorrelation models
CN112699206B (zh) 一种用户职、住地分析方法及装置
Fuchs et al. Intelligent icon positioning for interactive map-based information systems
CN116541474B (zh) 对象获取方法、装置、电子设备及存储介质
JP7473837B2 (ja) 劣化推定装置及び劣化推定方法
US20230334602A1 (en) Systems and methods of improving the safety and efficiency of excavation activities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant