CN115687870A - 一种基于矩阵运算的地名匹配方法 - Google Patents

一种基于矩阵运算的地名匹配方法 Download PDF

Info

Publication number
CN115687870A
CN115687870A CN202310000541.3A CN202310000541A CN115687870A CN 115687870 A CN115687870 A CN 115687870A CN 202310000541 A CN202310000541 A CN 202310000541A CN 115687870 A CN115687870 A CN 115687870A
Authority
CN
China
Prior art keywords
place name
matching
coding
place
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310000541.3A
Other languages
English (en)
Inventor
曹晔
孔维
彭真
杨智均
赵谦
周翔
徐锴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Eli Digital City Technology Co ltd
Original Assignee
Sichuan Eli Digital City Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Eli Digital City Technology Co ltd filed Critical Sichuan Eli Digital City Technology Co ltd
Priority to CN202310000541.3A priority Critical patent/CN115687870A/zh
Publication of CN115687870A publication Critical patent/CN115687870A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于矩阵运算的地名匹配方法,包括以下步骤:S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;S2、将编码向量输入区域分类模型,得到区域数据;S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。本发明提供的一种基于矩阵运算的地名匹配方法在地名查询场景,当用户查询关键字为无序的,含有拼音,错别字,同音词等,都能快速、精准匹配到用户想要查询的地名,大大给用户带来了方便。本发明采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题,通过区域分类模型预测出查询关键字的区域数据,可以快速并且精准的匹配用户想要搜索的地名。

Description

一种基于矩阵运算的地名匹配方法
技术领域
本发明属于计算机应用技术领域,具体涉及一种基于矩阵运算的地名匹配方法。
背景技术
在地理位置名称查询场景,用户在进行地名搜索时,输入的关键字常常是随机的、任意的、无序的,甚至是含有拼音、错别字、同音词等,需要一种文本匹配方法能快速并且精准的匹配用户想要搜索的地名。
目前,市场上常见的数据库,比如mysql、oracle、ElasticSearch等,虽然上述数据库具有模糊查询功能,但是并不能满足用户输入的关键字是无序的、任意的、含有拼音等情况,换句话说,数据库只能机械的匹配用户搜索的关键字,不能智能的猜测用户想要的搜索的内容。当下在自然语言处理技术、机器学习、深度学习等相关技术的大环境下,各个领域在文本搜索方面都取得了很大的突破,比如百度关键字搜索、高德地图位置搜索,都能像机器人一样匹配你可能想要的结果,但是,在地名精准匹配方面,目前没有一项应用能满足用户的随意输入、错别字输入、拼音输入等,精度方面也不能达到要求。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于矩阵运算的地名匹配方法解决了地理位置查询场景下地名匹配精度不高的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于矩阵运算的地名匹配方法,包括以下步骤:
S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;
S2、将编码向量输入区域分类模型,得到区域数据;
S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。
进一步地:所述S1中,编码操作的方法具体为TF-IDF编码方法。
进一步地:所述TF-IDF编码方法具体为:计算关键字的词频和逆文本指数,将词频和逆文本指数相乘得到地址向量;
其中,计算所述词频
Figure DEST_PATH_IMAGE001
的表达式具体为:
Figure DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
为某一类词条w在文本中出现的次数,S为该类中所有词条数目;
计算所述逆文本指数IDF的表达式具体为:
Figure DEST_PATH_IMAGE004
式中,
Figure DEST_PATH_IMAGE005
为包含词条w的文档总数,T为预料库的文档总数。
进一步地:所述S2中,得到区域分类模型的方法包括以下分步骤:
S21、收集地名底表,将地名底表进行预处理,得到地址向量;
S22、建立朴素贝叶斯模型,通过地址向量训练和调试朴素贝叶斯模型,得到区域分类模型。
进一步地:所述S21中,预处理包括数据增强和编码操作;
所述S21具体为:收集地名底表,对地名底表中数据进行数据增强,对数据增强后的数据进行编码操作,得到地址向量;
其中,所述地名底表包括地名和地名对应的地名描述。
进一步地:所述S21中,对地名底表中数据进行数据增强的方法具体为:
在地名底表的地名描述中加入拼音、错别字和同音词。
进一步地:所述S3包括以下分步骤:
S31、根据所述区域数据得到区域矩阵和独热编码字典;
S32、通过所述独热编码字典将所述关键字转换为关键字向量;
S33、根据关键字向量和区域矩阵,得到匹配向量;
S34、查询与匹配向量最接近的地址向量,将所述地址向量对应的地名作为匹配结果,完成地名匹配。
进一步地:所述S31中,得到独热编码字典的方法具体为:
将地名底表按照区域划分得到地名区域子表,去掉所述地名区域子表中的通用词,并对去掉通用词后的地名区域子表中的所有词进行编码,生成独热编码字典;
得到区域矩阵的方法具体为:
通过独热编码字典对所述地名区域子表中所有地名进行编码,得到区域矩阵。
上述进一步方案的有益效果为:去掉通用词可以减少计算机的计算量。
进一步地:所述S33中,得到匹配向量
Figure DEST_PATH_IMAGE006
的表达式具体为:
Figure DEST_PATH_IMAGE007
式中,
Figure DEST_PATH_IMAGE008
为关键字向量,
Figure DEST_PATH_IMAGE009
为区域矩阵。
上述进一步方案的有益效果为:本发明在区域内对于地址匹配,不需要其语义信息,也不需要关注文本上下文关系,只需保证尽可能与用户搜索的内容匹配更多相同的字符,提高用户满意度。
本发明的有益效果为:
(1)本发明提供的一种基于矩阵运算的地名匹配方法在地名查询场景,当用户查询关键字为无序的,含有拼音,错别字,同音词等,都能快速、精准匹配到用户想要查询的地名,大大给用户带来了方便。
(2)本发明采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题,通过区域分类模型预测出查询关键字的区域数据,再用矩阵计算及向量内积算法对区域数据进行地名精准匹配,可以快速并且精准的匹配用户想要搜索的地名。
附图说明
图1为本发明的一种基于矩阵运算的地名匹配方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,一种基于矩阵运算的地名匹配方法,包括以下步骤:
S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;
S2、将编码向量输入区域分类模型,得到区域数据;
S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。
所述S1中,编码操作的方法具体为TF-IDF编码方法。
所述TF-IDF编码方法具体为:计算关键字的词频和逆文本指数,将词频和逆文本指数相乘得到地址向量;
TF-IDF实际上是TF * IDF,TF-IDF倾向于过滤掉常见的词语,保留重要的词语,其有利于训练朴素贝叶斯概率模型。
其中,计算所述词频
Figure 499783DEST_PATH_IMAGE001
的表达式具体为:
Figure 151344DEST_PATH_IMAGE002
式中,
Figure 665502DEST_PATH_IMAGE003
为某一类词条w在文本中出现的次数,S为该类中所有词条数目;
所述词频
Figure 795132DEST_PATH_IMAGE001
用于表示词条在文本中出现的频率;
计算所述逆文本指数IDF的表达式具体为:
Figure 343925DEST_PATH_IMAGE004
式中,
Figure 900808DEST_PATH_IMAGE005
为包含词条w的文档总数,T为预料库的文档总数。
所述逆文本指数IDF用于说明词条具有的类别区分能力,如果包含词条的文档越少,则IDF越大,词条具有的类别区分能力越好。
所述S2中,得到区域分类模型的方法包括以下分步骤:
S21、收集地名底表,将地名底表进行预处理,得到地址向量;
S22、建立朴素贝叶斯模型,通过地址向量训练和调试朴素贝叶斯模型,得到区域分类模型。
所述S21中,预处理包括数据增强和编码操作;
所述S21具体为:收集地名底表,对地名底表中数据进行数据增强,对数据增强后的数据进行编码操作,得到地址向量;
其中,所述地名底表包括地名和地名对应的地名描述。
所述S21中,对地名底表中数据进行数据增强的方法具体为:
在地名底表的地名描述中加入拼音、错别字和同音词;
所述编码操作的方法具体为TF-IDF编码方法。
所述S22中,朴素贝叶斯模型的贝叶斯公式为下式:
Figure DEST_PATH_IMAGE010
式中,A为地名描述,为区域类别,
Figure DEST_PATH_IMAGE011
为预测概率通式。
本发明基于朴素贝叶斯模型训练得到的区域分类模型进行区域分类的时,精度达到了99.95%。
所述S3包括以下分步骤:
S31、根据所述区域数据得到区域矩阵和独热编码字典;
S32、通过所述独热编码字典将所述关键字转换为关键字向量;
S33、根据关键字向量和区域矩阵,得到匹配向量;
S34、查询与匹配向量最接近的地址向量,将所述地址向量对应的地名作为匹配结果,完成地名匹配。
所述S31中,得到独热编码字典的方法具体为:
将地名底表按照区域划分得到地名区域子表,去掉所述地名区域子表中的通用词,并对去掉通用词后的地名区域子表中的所有词进行编码,生成独热编码字典;
得到区域矩阵的方法具体为:
通过独热编码字典对所述地名区域子表中所有地名进行编码,得到区域矩阵。
在本实施例中,将地名底表按照区域划分为12个地名区域子表,在地名区域子表内去掉部分通用词,如像“成都市”、“武侯区”这样的词已经对匹配没有实际含义了,将其去掉来减小向量的维度进而减少计算机的计算量。然后对每一个词进行编码,生成独热编码字典,具体格式如下:
{"翠堤春晓": 0, "沙堰街": 1, "社区": 2, "8号": 3, "春晓": 4, "晋阳":5, "晋阳街道办事处": 6, "街道": 7, "街道办": 8, "办事": 9, "办事处": 10, "晋阳社区": 11, ...}
地名区域子表内所有地名词的个数,作为此字典的大小,此后生成向量的维度也就为多大。例如:武侯区地名描述共有20000多个词汇,则由独热编码生成的向量有20000维。
如果某段地址描述分词后如下:
“翠堤春晓 街道8号 办事处”
则根据独热编码字典生成的向量为:
Figure DEST_PATH_IMAGE012
则根据地名区域子表中所有的地址描述构建如下矩阵,得到区域矩阵。
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
区域矩阵的维度为
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
为地名区域子表中地名的总数,
Figure DEST_PATH_IMAGE019
为地名区域子表中任一地名。
本发明在区域内对于地址匹配,不需要其语义信息,也不需要关注文本上下文关系,只需保证尽可能与用户搜索的内容匹配更多相同的字符,因为已经做了数据增强,所以对用户来说感觉就比较智能了。因此地名匹配只关注“有没有”的问题,选择简单的独热编码。
所述S33中,得到匹配向量
Figure 525431DEST_PATH_IMAGE006
的表达式具体为:
Figure 458752DEST_PATH_IMAGE007
式中,
Figure 111319DEST_PATH_IMAGE008
为关键字向量,
Figure 104683DEST_PATH_IMAGE009
为区域矩阵。
匹配向量
Figure DEST_PATH_IMAGE020
的n列索引位置的数据为输入关键字的文本与区域内所有地名的相似度。
由于本申请采用了特殊的独热编码方式编码输入关键字的文本和区域矩阵,所以
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
中的元素都为1,假设
Figure DEST_PATH_IMAGE023
则有:
Figure DEST_PATH_IMAGE024
其中:
Figure 531116DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE025
的内积为两个向量相同位置索引上具体数据都为1的个数,即输入关键字的文本与区域某地址相同词的个数,则相同词越多,
Figure 736970DEST_PATH_IMAGE021
Figure 745508DEST_PATH_IMAGE025
的内积就越大,返回的匹配值越高。
本发明的有益效果为:本发明提供的一种基于矩阵运算的地名匹配方法在地名查询场景,当用户查询关键字为无序的,含有拼音,错别字,同音词等,都能快速、精准匹配到用户想要查询的地名,大大给用户带来了方便。
本发明采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题,通过区域分类模型预测出查询关键字的区域数据,再用矩阵计算及向量内积算法对区域数据进行地名精准匹配,可以快速并且精准的匹配用户想要搜索的地名。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims (9)

1.一种基于矩阵运算的地名匹配方法,其特征在于,包括以下步骤:
S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;
S2、将编码向量输入区域分类模型,得到区域数据;
S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。
2.根据权利要求1所述的基于矩阵运算的地名匹配方法,其特征在于,所述S1中,编码操作的方法具体为TF-IDF编码方法。
3.根据权利要求2所述的基于矩阵运算的地名匹配方法,其特征在于,所述TF-IDF编码方法具体为:计算关键字的词频和逆文本指数,将词频和逆文本指数相乘得到地址向量;
其中,计算所述词频
Figure 986386DEST_PATH_IMAGE001
的表达式具体为:
Figure 434684DEST_PATH_IMAGE002
式中,
Figure 870214DEST_PATH_IMAGE003
为某一类词条w在文本中出现的次数,S为该类中所有词条数目;
计算所述逆文本指数IDF的表达式具体为:
Figure 796582DEST_PATH_IMAGE004
式中,
Figure 17478DEST_PATH_IMAGE005
为包含词条w的文档总数,T为预料库的文档总数。
4.根据权利要求3所述的基于矩阵运算的地名匹配方法,其特征在于,所述S2中,得到区域分类模型的方法包括以下分步骤:
S21、收集地名底表,将地名底表进行预处理,得到地址向量;
S22、建立朴素贝叶斯模型,通过地址向量训练和调试朴素贝叶斯模型,得到区域分类模型。
5.根据权利要求4所述的基于矩阵运算的地名匹配方法,其特征在于,所述S21中,预处理包括数据增强和编码操作;
所述S21具体为:收集地名底表,对地名底表中数据进行数据增强,对数据增强后的数据进行编码操作,得到地址向量;
其中,所述地名底表包括地名和地名对应的地名描述。
6.根据权利要求5所述的基于矩阵运算的地名匹配方法,其特征在于,所述S21中,对地名底表中数据进行数据增强的方法具体为:
在地名底表的地名描述中加入拼音、错别字和同音词。
7.根据权利要求2所述的基于矩阵运算的地名匹配方法,其特征在于,所述S3包括以下分步骤:
S31、根据所述区域数据得到区域矩阵和独热编码字典;
S32、通过所述独热编码字典将所述关键字转换为关键字向量;
S33、根据关键字向量和区域矩阵,得到匹配向量;
S34、查询与匹配向量最接近的地址向量,将所述地址向量对应的地名作为匹配结果,完成地名匹配。
8.根据权利要求7所述的基于矩阵运算的地名匹配方法,其特征在于,所述S31中,得到独热编码字典的方法具体为:
将地名底表按照区域划分得到地名区域子表,去掉所述地名区域子表中的通用词,并对去掉通用词后的地名区域子表中的所有词进行编码,生成独热编码字典;
得到区域矩阵的方法具体为:
通过独热编码字典对所述地名区域子表中所有地名进行编码,得到区域矩阵。
9.根据权利要求7所述的基于矩阵运算的地名匹配方法,其特征在于,所述S33中,得到匹配向量
Figure 371099DEST_PATH_IMAGE006
的表达式具体为:
Figure 293925DEST_PATH_IMAGE007
式中,
Figure 23983DEST_PATH_IMAGE008
为关键字向量,
Figure 99387DEST_PATH_IMAGE009
为区域矩阵。
CN202310000541.3A 2023-01-03 2023-01-03 一种基于矩阵运算的地名匹配方法 Pending CN115687870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310000541.3A CN115687870A (zh) 2023-01-03 2023-01-03 一种基于矩阵运算的地名匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310000541.3A CN115687870A (zh) 2023-01-03 2023-01-03 一种基于矩阵运算的地名匹配方法

Publications (1)

Publication Number Publication Date
CN115687870A true CN115687870A (zh) 2023-02-03

Family

ID=85057436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310000541.3A Pending CN115687870A (zh) 2023-01-03 2023-01-03 一种基于矩阵运算的地名匹配方法

Country Status (1)

Country Link
CN (1) CN115687870A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN110347777A (zh) * 2019-07-17 2019-10-18 腾讯科技(深圳)有限公司 一种兴趣点poi的分类方法、装置、服务器及存储介质
CN112818685A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址匹配方法、装置、电子设备及存储介质
CN113076493A (zh) * 2021-03-31 2021-07-06 北京达佳互联信息技术有限公司 电子地图兴趣点poi数据处理方法、装置及服务器
CN114297235A (zh) * 2021-11-30 2022-04-08 上海品顺信息科技有限公司 风险地址识别方法、系统及电子设备
CN114528404A (zh) * 2022-02-18 2022-05-24 浪潮卓数大数据产业发展有限公司 一种识别省市区的方法及装置
CN114817943A (zh) * 2022-02-28 2022-07-29 中国银联股份有限公司 一种数据匹配方法、装置、设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN110347777A (zh) * 2019-07-17 2019-10-18 腾讯科技(深圳)有限公司 一种兴趣点poi的分类方法、装置、服务器及存储介质
CN112818685A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址匹配方法、装置、电子设备及存储介质
CN113076493A (zh) * 2021-03-31 2021-07-06 北京达佳互联信息技术有限公司 电子地图兴趣点poi数据处理方法、装置及服务器
CN114297235A (zh) * 2021-11-30 2022-04-08 上海品顺信息科技有限公司 风险地址识别方法、系统及电子设备
CN114528404A (zh) * 2022-02-18 2022-05-24 浪潮卓数大数据产业发展有限公司 一种识别省市区的方法及装置
CN114817943A (zh) * 2022-02-28 2022-07-29 中国银联股份有限公司 一种数据匹配方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
WO2005083593A1 (en) A method for providing search results list based on importance information and system thereof
CN106708929B (zh) 视频节目的搜索方法和装置
CN110390094B (zh) 对文档进行分类的方法、电子设备和计算机程序产品
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
CN102262670A (zh) 一种基于移动可视设备的跨媒体信息检索系统及方法
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN110727769B (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
US10331717B2 (en) Method and apparatus for determining similar document set to target document from a plurality of documents
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
CN110008407B (zh) 一种信息检索方法及装置
CN115687870A (zh) 一种基于矩阵运算的地名匹配方法
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
Yang et al. Exploring word similarity to improve chinese personal name disambiguation
CN114118082A (zh) 一种简历检索方法及装置
CN114491056A (zh) 数字警务场景下的改进poi搜索的方法和系统
CN111259145B (zh) 基于情报数据的文本检索分类方法、系统及存储介质
De Bortoli Fávero et al. Embse: A word embeddings model oriented towards software engineering domain
Wang et al. Exploiting multi-document term extraction to improve named entity recognition for major concept detection
CN117851578B (zh) 一种信息服务方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230203

RJ01 Rejection of invention patent application after publication