CN115687870A - 一种基于矩阵运算的地名匹配方法 - Google Patents
一种基于矩阵运算的地名匹配方法 Download PDFInfo
- Publication number
- CN115687870A CN115687870A CN202310000541.3A CN202310000541A CN115687870A CN 115687870 A CN115687870 A CN 115687870A CN 202310000541 A CN202310000541 A CN 202310000541A CN 115687870 A CN115687870 A CN 115687870A
- Authority
- CN
- China
- Prior art keywords
- place name
- matching
- coding
- place
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000011159 matrix material Substances 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 52
- 238000013145 classification model Methods 0.000 claims abstract description 14
- 150000001875 compounds Chemical class 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004883 computer application Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于矩阵运算的地名匹配方法,包括以下步骤:S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;S2、将编码向量输入区域分类模型,得到区域数据;S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。本发明提供的一种基于矩阵运算的地名匹配方法在地名查询场景,当用户查询关键字为无序的,含有拼音,错别字,同音词等,都能快速、精准匹配到用户想要查询的地名,大大给用户带来了方便。本发明采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题,通过区域分类模型预测出查询关键字的区域数据,可以快速并且精准的匹配用户想要搜索的地名。
Description
技术领域
本发明属于计算机应用技术领域,具体涉及一种基于矩阵运算的地名匹配方法。
背景技术
在地理位置名称查询场景,用户在进行地名搜索时,输入的关键字常常是随机的、任意的、无序的,甚至是含有拼音、错别字、同音词等,需要一种文本匹配方法能快速并且精准的匹配用户想要搜索的地名。
目前,市场上常见的数据库,比如mysql、oracle、ElasticSearch等,虽然上述数据库具有模糊查询功能,但是并不能满足用户输入的关键字是无序的、任意的、含有拼音等情况,换句话说,数据库只能机械的匹配用户搜索的关键字,不能智能的猜测用户想要的搜索的内容。当下在自然语言处理技术、机器学习、深度学习等相关技术的大环境下,各个领域在文本搜索方面都取得了很大的突破,比如百度关键字搜索、高德地图位置搜索,都能像机器人一样匹配你可能想要的结果,但是,在地名精准匹配方面,目前没有一项应用能满足用户的随意输入、错别字输入、拼音输入等,精度方面也不能达到要求。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于矩阵运算的地名匹配方法解决了地理位置查询场景下地名匹配精度不高的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于矩阵运算的地名匹配方法,包括以下步骤:
S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;
S2、将编码向量输入区域分类模型,得到区域数据;
S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。
进一步地:所述S1中,编码操作的方法具体为TF-IDF编码方法。
进一步地:所述TF-IDF编码方法具体为:计算关键字的词频和逆文本指数,将词频和逆文本指数相乘得到地址向量;
计算所述逆文本指数IDF的表达式具体为:
进一步地:所述S2中,得到区域分类模型的方法包括以下分步骤:
S21、收集地名底表,将地名底表进行预处理,得到地址向量;
S22、建立朴素贝叶斯模型,通过地址向量训练和调试朴素贝叶斯模型,得到区域分类模型。
进一步地:所述S21中,预处理包括数据增强和编码操作;
所述S21具体为:收集地名底表,对地名底表中数据进行数据增强,对数据增强后的数据进行编码操作,得到地址向量;
其中,所述地名底表包括地名和地名对应的地名描述。
进一步地:所述S21中,对地名底表中数据进行数据增强的方法具体为:
在地名底表的地名描述中加入拼音、错别字和同音词。
进一步地:所述S3包括以下分步骤:
S31、根据所述区域数据得到区域矩阵和独热编码字典;
S32、通过所述独热编码字典将所述关键字转换为关键字向量;
S33、根据关键字向量和区域矩阵,得到匹配向量;
S34、查询与匹配向量最接近的地址向量,将所述地址向量对应的地名作为匹配结果,完成地名匹配。
进一步地:所述S31中,得到独热编码字典的方法具体为:
将地名底表按照区域划分得到地名区域子表,去掉所述地名区域子表中的通用词,并对去掉通用词后的地名区域子表中的所有词进行编码,生成独热编码字典;
得到区域矩阵的方法具体为:
通过独热编码字典对所述地名区域子表中所有地名进行编码,得到区域矩阵。
上述进一步方案的有益效果为:去掉通用词可以减少计算机的计算量。
上述进一步方案的有益效果为:本发明在区域内对于地址匹配,不需要其语义信息,也不需要关注文本上下文关系,只需保证尽可能与用户搜索的内容匹配更多相同的字符,提高用户满意度。
本发明的有益效果为:
(1)本发明提供的一种基于矩阵运算的地名匹配方法在地名查询场景,当用户查询关键字为无序的,含有拼音,错别字,同音词等,都能快速、精准匹配到用户想要查询的地名,大大给用户带来了方便。
(2)本发明采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题,通过区域分类模型预测出查询关键字的区域数据,再用矩阵计算及向量内积算法对区域数据进行地名精准匹配,可以快速并且精准的匹配用户想要搜索的地名。
附图说明
图1为本发明的一种基于矩阵运算的地名匹配方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,一种基于矩阵运算的地名匹配方法,包括以下步骤:
S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;
S2、将编码向量输入区域分类模型,得到区域数据;
S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。
所述S1中,编码操作的方法具体为TF-IDF编码方法。
所述TF-IDF编码方法具体为:计算关键字的词频和逆文本指数,将词频和逆文本指数相乘得到地址向量;
TF-IDF实际上是TF * IDF,TF-IDF倾向于过滤掉常见的词语,保留重要的词语,其有利于训练朴素贝叶斯概率模型。
计算所述逆文本指数IDF的表达式具体为:
所述逆文本指数IDF用于说明词条具有的类别区分能力,如果包含词条的文档越少,则IDF越大,词条具有的类别区分能力越好。
所述S2中,得到区域分类模型的方法包括以下分步骤:
S21、收集地名底表,将地名底表进行预处理,得到地址向量;
S22、建立朴素贝叶斯模型,通过地址向量训练和调试朴素贝叶斯模型,得到区域分类模型。
所述S21中,预处理包括数据增强和编码操作;
所述S21具体为:收集地名底表,对地名底表中数据进行数据增强,对数据增强后的数据进行编码操作,得到地址向量;
其中,所述地名底表包括地名和地名对应的地名描述。
所述S21中,对地名底表中数据进行数据增强的方法具体为:
在地名底表的地名描述中加入拼音、错别字和同音词;
所述编码操作的方法具体为TF-IDF编码方法。
所述S22中,朴素贝叶斯模型的贝叶斯公式为下式:
本发明基于朴素贝叶斯模型训练得到的区域分类模型进行区域分类的时,精度达到了99.95%。
所述S3包括以下分步骤:
S31、根据所述区域数据得到区域矩阵和独热编码字典;
S32、通过所述独热编码字典将所述关键字转换为关键字向量;
S33、根据关键字向量和区域矩阵,得到匹配向量;
S34、查询与匹配向量最接近的地址向量,将所述地址向量对应的地名作为匹配结果,完成地名匹配。
所述S31中,得到独热编码字典的方法具体为:
将地名底表按照区域划分得到地名区域子表,去掉所述地名区域子表中的通用词,并对去掉通用词后的地名区域子表中的所有词进行编码,生成独热编码字典;
得到区域矩阵的方法具体为:
通过独热编码字典对所述地名区域子表中所有地名进行编码,得到区域矩阵。
在本实施例中,将地名底表按照区域划分为12个地名区域子表,在地名区域子表内去掉部分通用词,如像“成都市”、“武侯区”这样的词已经对匹配没有实际含义了,将其去掉来减小向量的维度进而减少计算机的计算量。然后对每一个词进行编码,生成独热编码字典,具体格式如下:
{"翠堤春晓": 0, "沙堰街": 1, "社区": 2, "8号": 3, "春晓": 4, "晋阳":5, "晋阳街道办事处": 6, "街道": 7, "街道办": 8, "办事": 9, "办事处": 10, "晋阳社区": 11, ...}
地名区域子表内所有地名词的个数,作为此字典的大小,此后生成向量的维度也就为多大。例如:武侯区地名描述共有20000多个词汇,则由独热编码生成的向量有20000维。
如果某段地址描述分词后如下:
“翠堤春晓 街道8号 办事处”
则根据独热编码字典生成的向量为:
则根据地名区域子表中所有的地址描述构建如下矩阵,得到区域矩阵。
本发明在区域内对于地址匹配,不需要其语义信息,也不需要关注文本上下文关系,只需保证尽可能与用户搜索的内容匹配更多相同的字符,因为已经做了数据增强,所以对用户来说感觉就比较智能了。因此地名匹配只关注“有没有”的问题,选择简单的独热编码。
本发明的有益效果为:本发明提供的一种基于矩阵运算的地名匹配方法在地名查询场景,当用户查询关键字为无序的,含有拼音,错别字,同音词等,都能快速、精准匹配到用户想要查询的地名,大大给用户带来了方便。
本发明采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题,通过区域分类模型预测出查询关键字的区域数据,再用矩阵计算及向量内积算法对区域数据进行地名精准匹配,可以快速并且精准的匹配用户想要搜索的地名。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。
Claims (9)
1.一种基于矩阵运算的地名匹配方法,其特征在于,包括以下步骤:
S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;
S2、将编码向量输入区域分类模型,得到区域数据;
S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。
2.根据权利要求1所述的基于矩阵运算的地名匹配方法,其特征在于,所述S1中,编码操作的方法具体为TF-IDF编码方法。
4.根据权利要求3所述的基于矩阵运算的地名匹配方法,其特征在于,所述S2中,得到区域分类模型的方法包括以下分步骤:
S21、收集地名底表,将地名底表进行预处理,得到地址向量;
S22、建立朴素贝叶斯模型,通过地址向量训练和调试朴素贝叶斯模型,得到区域分类模型。
5.根据权利要求4所述的基于矩阵运算的地名匹配方法,其特征在于,所述S21中,预处理包括数据增强和编码操作;
所述S21具体为:收集地名底表,对地名底表中数据进行数据增强,对数据增强后的数据进行编码操作,得到地址向量;
其中,所述地名底表包括地名和地名对应的地名描述。
6.根据权利要求5所述的基于矩阵运算的地名匹配方法,其特征在于,所述S21中,对地名底表中数据进行数据增强的方法具体为:
在地名底表的地名描述中加入拼音、错别字和同音词。
7.根据权利要求2所述的基于矩阵运算的地名匹配方法,其特征在于,所述S3包括以下分步骤:
S31、根据所述区域数据得到区域矩阵和独热编码字典;
S32、通过所述独热编码字典将所述关键字转换为关键字向量;
S33、根据关键字向量和区域矩阵,得到匹配向量;
S34、查询与匹配向量最接近的地址向量,将所述地址向量对应的地名作为匹配结果,完成地名匹配。
8.根据权利要求7所述的基于矩阵运算的地名匹配方法,其特征在于,所述S31中,得到独热编码字典的方法具体为:
将地名底表按照区域划分得到地名区域子表,去掉所述地名区域子表中的通用词,并对去掉通用词后的地名区域子表中的所有词进行编码,生成独热编码字典;
得到区域矩阵的方法具体为:
通过独热编码字典对所述地名区域子表中所有地名进行编码,得到区域矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310000541.3A CN115687870A (zh) | 2023-01-03 | 2023-01-03 | 一种基于矩阵运算的地名匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310000541.3A CN115687870A (zh) | 2023-01-03 | 2023-01-03 | 一种基于矩阵运算的地名匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115687870A true CN115687870A (zh) | 2023-02-03 |
Family
ID=85057436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310000541.3A Pending CN115687870A (zh) | 2023-01-03 | 2023-01-03 | 一种基于矩阵运算的地名匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687870A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096024A (zh) * | 2016-06-24 | 2016-11-09 | 北京京东尚科信息技术有限公司 | 地址相似度的评估方法和评估装置 |
CN107239442A (zh) * | 2017-05-09 | 2017-10-10 | 北京京东金融科技控股有限公司 | 一种计算地址相似度的方法和装置 |
CN110347777A (zh) * | 2019-07-17 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种兴趣点poi的分类方法、装置、服务器及存储介质 |
CN112818685A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 地址匹配方法、装置、电子设备及存储介质 |
CN113076493A (zh) * | 2021-03-31 | 2021-07-06 | 北京达佳互联信息技术有限公司 | 电子地图兴趣点poi数据处理方法、装置及服务器 |
CN114297235A (zh) * | 2021-11-30 | 2022-04-08 | 上海品顺信息科技有限公司 | 风险地址识别方法、系统及电子设备 |
CN114528404A (zh) * | 2022-02-18 | 2022-05-24 | 浪潮卓数大数据产业发展有限公司 | 一种识别省市区的方法及装置 |
CN114817943A (zh) * | 2022-02-28 | 2022-07-29 | 中国银联股份有限公司 | 一种数据匹配方法、装置、设备及介质 |
-
2023
- 2023-01-03 CN CN202310000541.3A patent/CN115687870A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096024A (zh) * | 2016-06-24 | 2016-11-09 | 北京京东尚科信息技术有限公司 | 地址相似度的评估方法和评估装置 |
CN107239442A (zh) * | 2017-05-09 | 2017-10-10 | 北京京东金融科技控股有限公司 | 一种计算地址相似度的方法和装置 |
CN110347777A (zh) * | 2019-07-17 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种兴趣点poi的分类方法、装置、服务器及存储介质 |
CN112818685A (zh) * | 2021-01-29 | 2021-05-18 | 上海寻梦信息技术有限公司 | 地址匹配方法、装置、电子设备及存储介质 |
CN113076493A (zh) * | 2021-03-31 | 2021-07-06 | 北京达佳互联信息技术有限公司 | 电子地图兴趣点poi数据处理方法、装置及服务器 |
CN114297235A (zh) * | 2021-11-30 | 2022-04-08 | 上海品顺信息科技有限公司 | 风险地址识别方法、系统及电子设备 |
CN114528404A (zh) * | 2022-02-18 | 2022-05-24 | 浪潮卓数大数据产业发展有限公司 | 一种识别省市区的方法及装置 |
CN114817943A (zh) * | 2022-02-28 | 2022-07-29 | 中国银联股份有限公司 | 一种数据匹配方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794A (zh) | 一种基于主题词的文本相似度匹配方法 | |
Sarawagi et al. | Open-domain quantity queries on web tables: annotation, response, and consensus models | |
WO2005083593A1 (en) | A method for providing search results list based on importance information and system thereof | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN110390094B (zh) | 对文档进行分类的方法、电子设备和计算机程序产品 | |
CN114911917B (zh) | 资产元信息搜索方法、装置、计算机设备及可读存储介质 | |
CN102262670A (zh) | 一种基于移动可视设备的跨媒体信息检索系统及方法 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN110727769B (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
US10331717B2 (en) | Method and apparatus for determining similar document set to target document from a plurality of documents | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
CN110008407B (zh) | 一种信息检索方法及装置 | |
CN115687870A (zh) | 一种基于矩阵运算的地名匹配方法 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
CN113505196B (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
Yang et al. | Exploring word similarity to improve chinese personal name disambiguation | |
CN114118082A (zh) | 一种简历检索方法及装置 | |
CN114491056A (zh) | 数字警务场景下的改进poi搜索的方法和系统 | |
CN111259145B (zh) | 基于情报数据的文本检索分类方法、系统及存储介质 | |
De Bortoli Fávero et al. | Embse: A word embeddings model oriented towards software engineering domain | |
Wang et al. | Exploiting multi-document term extraction to improve named entity recognition for major concept detection | |
CN117851578B (zh) | 一种信息服务方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230203 |
|
RJ01 | Rejection of invention patent application after publication |