CN113204612B - 一种基于先验知识的网约车相似地址识别方法 - Google Patents
一种基于先验知识的网约车相似地址识别方法 Download PDFInfo
- Publication number
- CN113204612B CN113204612B CN202110444736.8A CN202110444736A CN113204612B CN 113204612 B CN113204612 B CN 113204612B CN 202110444736 A CN202110444736 A CN 202110444736A CN 113204612 B CN113204612 B CN 113204612B
- Authority
- CN
- China
- Prior art keywords
- ltoreq
- address
- city
- addresses
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于先验知识的网约车相似地址识别方法,包括以下步骤:S1、对于同一个城市,按经纬度划分方形单元网格;S2、初始化文本相似度模型M;S3、根据用户打车历史定位,统计城市内地址被使用次数k,记作k=f(e);S4、对单元网格内的地址,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类。本发明提供了一种基于先验知识的网约车相似地址识别方法,计算地址相似度可用于识别出相同地址,对于构建知识图谱具有重要作用;传统的文本计算相似度的方法无法有效利用先验知识,具有准确率低的问题;对于网约车服务因具有城市,经纬度两项先验知识,在此基础上,可以提升识别准确率。
Description
技术领域
本发明涉及网约车、旅游等位置服务(LBS)领域,特别涉及一种基于先验知识的网约车相似地址识别方法。
背景技术
位置服务在互联网的发展中起重要作用,网约车行业中,需要位置服务定位司机和乘客的位置,以便司机及时找到乘客。而交通管制以及实际路况中,可用于上车点的位置是固定的几个。识别地理位置相似的点为同一个位置,把此位置作为用户常用的上车点的推荐,以及据此数据分析用户行为,构建知识图谱,提供个性化服务。
业界以前提供的是文本相似度算法和判定2个地址为同一位置。这种算法因缺少地理经纬度信息,难以准确判断是同一位置。
基于此,本发明公开了一种基于先验知识的网约车相似地址识别方法,能精确识别用户常用地址,作为推荐上车点。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于先验知识的网约车相似地址识别方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种基于先验知识的网约车相似地址识别方法,包括以下步骤:
S1、对于同一个城市,按经纬度划分方形单元网格,其起点为(0,n),(n,n),(2n,n),(3n,n)...,方形网格大小为n,城市分割为(w*n,h*n)的矩形,w*n为城市长度,h*n为城市宽度;
S2、初始化文本相似度模型M,具体操作为把该城市所有地址使用word2vec建立模型,所得相似度模型函数记作g(e1,e2);
S3、根据用户打车历史定位,统计城市内地址被使用次数k,记作k=f(e);
S4、对单元网格内的地址,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为x类,同一类的存入集合,则得到独立集合q1,q2,q3…qx;
S5、处理边界问题,按起点为(-n/2,-n/2),(n/2,n/2),(3n/2,n/2)...划分方形单元网格,处理虚线网格单元,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为y类,同一类的存入独立集合,则得到集合p1,p2,p3…py;
S6、q1,q2,q3…qx与p1,p2,p3…py含有相同元素的合并,合并规则如下所示:
I:qi(1≤i≤x)中元素若存在于pj(1≤j≤y)中,则对应的集合合并;
II:pj(1≤j≤y)中元素若存在于qi(1≤i≤x)中,则对应的集合合并;
III:qi(1≤i≤x)中元素若存在于qj(1≤j≤x)中,i≠j,则对应的集合合并;
IV:pj(1≤j≤y)中元素若存在于pi(1≤i≤y)中,i≠j,则对应的集合合并;
重复上述规则,直至不再有可合并的集合;最终形成h1,h2,h3…hw;hi∩hj=φ,(1≤i≤w,1≤j≤w,i≠j);
S7、归于一类hi(1≤i≤w)的地址中,选择用户使用最多的地址作为等价地址uAddr,其他的地址作为表征地址vAddr,构造表征地址到等价地址的映射表T;
S8、输出某城市的地址映射表T,映射表中的等价地址uAddr即为用户使用最多的常用地址,表征地址vAddr为被合并的地址;
S9、网约车中用户呼叫时,获取到城市、经纬度、导航定位地址,去T中查询到对应的等价地址uAddr展示给用户使用,作为推荐上车点。
与现有技术相比,本发明的有益效果如下:
本发明提供了一种基于先验知识的网约车相似地址识别方法,计算地址相似度可用于识别出相同地址,对于构建知识图谱具有重要作用;传统的文本计算相似度的方法无法有效利用先验知识,具有准确率低的问题;对于网约车服务因具有城市,经纬度两项先验知识,在此基础上,可以提升识别准确率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的实施例示意图之一;
图2是本发明的实施例示意图之二。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明如图1-2所示,本发明提供一种基于先验知识的网约车相似地址识别方法,包括以下步骤:
S1、对于同一个城市,按经纬度划分方形单元网格,其起点为(0,n),(n,n),(2n,n),(3n,n)...,方形网格大小为n,城市分割为(w*n,h*n)的矩形,w*n为城市长度,h*n为城市宽度(如图1所示,小圈代表地点e,小圈位于所划分的单元网格内);
S2、初始化文本相似度模型M,具体操作为把该城市所有地址使用word2vec建立模型,所得相似度模型函数记作g(e1,e2);
S3、根据用户打车历史定位,统计城市内地址被使用次数k,记作k=f(e);
S4、对单元网格内的地址,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为x类,同一类的存入集合,则得到独立集合q1,q2,q3…qx;
S5、处理边界问题,按起点为(-n/2,-n/2),(n/2,n/2),(3n/2,n/2)...划分方形单元网格,图2处理虚线网格单元,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为y类,同一类的存入独立集合,则得到集合p1,p2,p3…py;
S6、q1,q2,q3…qx与p1,p2,p3…py含有相同元素的合并,合并规则如下所示:
I:qi(1≤i≤x)中元素若存在于pj(1≤j≤y)中,则对应的集合合并;
II:pj(1≤j≤y)中元素若存在于qi(1≤i≤x)中,则对应的集合合并;
III:qi(1≤i≤x)中元素若存在于qj(1≤j≤x)中,i≠j,则对应的集合合并;
IV:pj(1≤j≤y)中元素若存在于pi(1≤i≤y)中,i≠j,则对应的集合合并;
重复上述规则,直至不再有可合并的集合;最终形成h1,h2,h3…hw;hi∩hj=φ,(1≤i≤w,1≤j≤w,i≠j);
S7、归于一类hi(1≤i≤w)的地址中,选择用户使用最多的地址作为等价地址uAddr,其他的地址作为表征地址vAddr,构造表征地址到等价地址的映射表T,
等价地址 | 表征地址 |
uAddr1 | vAddr1 |
uAddr1 | vAddr2 |
uAddr1 | vAddr3 |
uAddr2 | vAddr4 |
uAddr2 | vAddr5 |
上表中,uAddr1,vAddr1,vAddr2,vAddr3为同一类地址;
f(uAddr1)=Max(f(e)),e∈hi={uAddr1,vAddr1,vAddr2,vAddr3};
S8、输出某城市的地址映射表T,映射表中的等价地址uAddr即为用户使用最多的常用地址,表征地址vAddr为被合并的地址;
S9、网约车中用户呼叫时,获取到城市、经纬度、导航定位地址,去T中查询到对应的等价地址uAddr展示给用户使用,作为推荐上车点。
具体的,本发明提供了一种基于先验知识的网约车相似地址识别方法,计算地址相似度可用于识别出相同地址,对于构建知识图谱具有重要作用;传统的文本计算相似度的方法无法有效利用先验知识,具有准确率低的问题;对于网约车服务因具有城市,经纬度两项先验知识,在此基础上,可以提升识别准确率。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于先验知识的网约车相似地址识别方法,其特征在于,包括以下步骤:
S1、对于同一个城市,按经纬度划分方形单元网格,其起点为(0,n),(n,n),(2n,n),(3n,n)...,方形网格大小为n,城市分割为(w*n,h*n)的矩形,w*n为城市长度,h*n为城市宽度;
S2、初始化文本相似度模型M,具体操作为把该城市所有地址使用word2vec建立模型,所得相似度模型函数记作g(e1,e2);
S3、根据用户打车历史定位,统计城市内地址被使用次数k,记作k=f(e);
S4、对单元网格内的地址,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为x类,同一类的存入集合,则得到独立集合q1,q2,q3…qx;
S5、处理边界问题,按起点为(-n/2,-n/2),(n/2,n/2),(3n/2,n/2)...划分方形单元网格,处理虚线网格单元,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为y类,同一类的存入独立集合,则得到集合p1,p2,p3…py;
S6、q1,q2,q3…qx与p1,p2,p3…py含有相同元素的合并,合并规则如下所示:
I:qi(1≤i≤x)中元素若存在于pj(1≤j≤y)中,则对应的集合合并;
II:pj(1≤j≤y)中元素若存在于qi(1≤i≤x)中,则对应的集合合并;
III:qi(1≤i≤x)中元素若存在于qj(1≤j≤x)中,i≠j,则对应的集合合并;
IV:pj(1≤j≤y)中元素若存在于pi(1≤i≤y)中,i≠j,则对应的集合合并;
重复上述规则,直至不再有可合并的集合;最终形成h1,h2,h3…hw;hi∩hj=φ,(1≤i≤w,1≤j≤w,i≠j);
S7、归于一类hi(1≤i≤w)的地址中,选择用户使用最多的地址作为等价地址uAddr,其他的地址作为表征地址vAddr,构造表征地址到等价地址的映射表T;
S8、输出某城市的地址映射表T,映射表中的等价地址uAddr即为用户使用最多的常用地址,表征地址vAddr为被合并的地址;
S9、网约车中用户呼叫时,获取到城市、经纬度、导航定位地址,去T中查询到对应的等价地址uAddr展示给用户使用,作为推荐上车点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110444736.8A CN113204612B (zh) | 2021-04-24 | 2021-04-24 | 一种基于先验知识的网约车相似地址识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110444736.8A CN113204612B (zh) | 2021-04-24 | 2021-04-24 | 一种基于先验知识的网约车相似地址识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113204612A CN113204612A (zh) | 2021-08-03 |
CN113204612B true CN113204612B (zh) | 2024-05-03 |
Family
ID=77028277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110444736.8A Active CN113204612B (zh) | 2021-04-24 | 2021-04-24 | 一种基于先验知识的网约车相似地址识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204612B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509415A (zh) * | 2018-03-16 | 2018-09-07 | 南京云问网络技术有限公司 | 一种基于词序加权的句子相似度计算方法 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN111274811A (zh) * | 2018-11-19 | 2020-06-12 | 阿里巴巴集团控股有限公司 | 地址文本相似度确定方法以及地址搜索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565229B2 (en) * | 2018-05-24 | 2020-02-18 | People.ai, Inc. | Systems and methods for matching electronic activities directly to record objects of systems of record |
-
2021
- 2021-04-24 CN CN202110444736.8A patent/CN113204612B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509415A (zh) * | 2018-03-16 | 2018-09-07 | 南京云问网络技术有限公司 | 一种基于词序加权的句子相似度计算方法 |
CN111274811A (zh) * | 2018-11-19 | 2020-06-12 | 阿里巴巴集团控股有限公司 | 地址文本相似度确定方法以及地址搜索方法 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113204612A (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220215749A1 (en) | Method for predicting at least one profile of the speed of a vehicle on a road network | |
JP6965218B2 (ja) | 道路維持管理システム、道路維持管理方法及びコンピュータプログラム | |
Graser et al. | Towards an open source analysis toolbox for street network comparison: Indicators, tools and results of a comparison of OSM and the official A ustrian reference graph | |
JP6314656B2 (ja) | 道路交通需要予測装置及び道路交通需要予測方法 | |
CN111581325B (zh) | 一种基于时空影响距离的K-means站点区域划分方法 | |
US20200333143A9 (en) | Gps-based area recognition in vehicles | |
CN110967461B (zh) | 一种基于gis技术实现河流水质动态分布的方法 | |
EP2594903B1 (en) | Method for representing linear features in a location content management system | |
US20210233393A1 (en) | Systems and Methods for Improved Traffic Conditions Visualization | |
CN116796904A (zh) | 一种轨道交通新线客流预测方法、系统、电子设备及介质 | |
US20210134149A1 (en) | Method, apparatus, and system for probe anomaly detection | |
CN113204612B (zh) | 一种基于先验知识的网约车相似地址识别方法 | |
CN110689180A (zh) | 一种基于地理位置的智能路线规划方法及系统 | |
CN113254561B (zh) | 一种位置数据处理系统 | |
CN105205577A (zh) | 客服工单地域细化分析方法 | |
CN112561145A (zh) | 一种臭氧污染管控敏感区预报方法、存储介质及终端 | |
CN112328725A (zh) | 基于地图数据的企业地理位置归属区域的划分装置及方法 | |
CN112163590A (zh) | 一种车辆异常轨迹检测与分类方法 | |
CN106326365B (zh) | 一种基于铁路WebGIS的应用接口实现方法及应用系统 | |
Hilario et al. | Forecasting urban population distribution of Iloilo City using GIS and spatial autocorrelation models | |
CN112699206B (zh) | 一种用户职、住地分析方法及装置 | |
Fuchs et al. | Intelligent icon positioning for interactive map-based information systems | |
CN116541474B (zh) | 对象获取方法、装置、电子设备及存储介质 | |
JP7473837B2 (ja) | 劣化推定装置及び劣化推定方法 | |
US20230334602A1 (en) | Systems and methods of improving the safety and efficiency of excavation activities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |