CN115687870A

CN115687870A - 一种基于矩阵运算的地名匹配方法

Info

Publication number: CN115687870A
Application number: CN202310000541.3A
Authority: CN
Inventors: 曹晔; 孔维; 彭真; 杨智均; 赵谦; 周翔; 徐锴
Original assignee: Sichuan Eli Digital City Technology Co ltd
Current assignee: Sichuan Eli Digital City Technology Co ltd
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-02-03

Abstract

本发明公开了一种基于矩阵运算的地名匹配方法，包括以下步骤：S1、获取用户输入文本的关键字，将关键字进行编码操作得到编码向量；S2、将编码向量输入区域分类模型，得到区域数据；S3、根据区域数据进行地名匹配，得到匹配结果，完成地名匹配。本发明提供的一种基于矩阵运算的地名匹配方法在地名查询场景，当用户查询关键字为无序的，含有拼音，错别字，同音词等，都能快速、精准匹配到用户想要查询的地名，大大给用户带来了方便。本发明采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题，通过区域分类模型预测出查询关键字的区域数据，可以快速并且精准的匹配用户想要搜索的地名。

Description

一种基于矩阵运算的地名匹配方法

技术领域

本发明属于计算机应用技术领域，具体涉及一种基于矩阵运算的地名匹配方法。

背景技术

在地理位置名称查询场景，用户在进行地名搜索时，输入的关键字常常是随机的、任意的、无序的，甚至是含有拼音、错别字、同音词等，需要一种文本匹配方法能快速并且精准的匹配用户想要搜索的地名。

目前，市场上常见的数据库，比如mysql、oracle、ElasticSearch等，虽然上述数据库具有模糊查询功能，但是并不能满足用户输入的关键字是无序的、任意的、含有拼音等情况，换句话说，数据库只能机械的匹配用户搜索的关键字，不能智能的猜测用户想要的搜索的内容。当下在自然语言处理技术、机器学习、深度学习等相关技术的大环境下，各个领域在文本搜索方面都取得了很大的突破，比如百度关键字搜索、高德地图位置搜索，都能像机器人一样匹配你可能想要的结果，但是，在地名精准匹配方面，目前没有一项应用能满足用户的随意输入、错别字输入、拼音输入等，精度方面也不能达到要求。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于矩阵运算的地名匹配方法解决了地理位置查询场景下地名匹配精度不高的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于矩阵运算的地名匹配方法，包括以下步骤：

S1、获取用户输入文本的关键字，将关键字进行编码操作得到编码向量；

S2、将编码向量输入区域分类模型，得到区域数据；

S3、根据区域数据进行地名匹配，得到匹配结果，完成地名匹配。

进一步地：所述S1中，编码操作的方法具体为TF-IDF编码方法。

进一步地：所述TF-IDF编码方法具体为：计算关键字的词频和逆文本指数，将词频和逆文本指数相乘得到地址向量；

其中，计算所述词频

的表达式具体为：

式中，

为某一类词条w在文本中出现的次数，S为该类中所有词条数目；

计算所述逆文本指数IDF的表达式具体为：

式中，

为包含词条w的文档总数，T为预料库的文档总数。

进一步地：所述S2中，得到区域分类模型的方法包括以下分步骤：

S21、收集地名底表，将地名底表进行预处理，得到地址向量；

S22、建立朴素贝叶斯模型，通过地址向量训练和调试朴素贝叶斯模型，得到区域分类模型。

进一步地：所述S21中，预处理包括数据增强和编码操作；

所述S21具体为：收集地名底表，对地名底表中数据进行数据增强，对数据增强后的数据进行编码操作，得到地址向量；

其中，所述地名底表包括地名和地名对应的地名描述。

进一步地：所述S21中，对地名底表中数据进行数据增强的方法具体为：

在地名底表的地名描述中加入拼音、错别字和同音词。

进一步地：所述S3包括以下分步骤：

S31、根据所述区域数据得到区域矩阵和独热编码字典；

S32、通过所述独热编码字典将所述关键字转换为关键字向量；

S33、根据关键字向量和区域矩阵，得到匹配向量；

S34、查询与匹配向量最接近的地址向量，将所述地址向量对应的地名作为匹配结果，完成地名匹配。

进一步地：所述S31中，得到独热编码字典的方法具体为：

将地名底表按照区域划分得到地名区域子表，去掉所述地名区域子表中的通用词，并对去掉通用词后的地名区域子表中的所有词进行编码，生成独热编码字典；

得到区域矩阵的方法具体为：

通过独热编码字典对所述地名区域子表中所有地名进行编码，得到区域矩阵。

上述进一步方案的有益效果为：去掉通用词可以减少计算机的计算量。

进一步地：所述S33中，得到匹配向量

的表达式具体为：

式中，

为关键字向量，

为区域矩阵。

上述进一步方案的有益效果为：本发明在区域内对于地址匹配，不需要其语义信息，也不需要关注文本上下文关系，只需保证尽可能与用户搜索的内容匹配更多相同的字符，提高用户满意度。

本发明的有益效果为：

（1）本发明提供的一种基于矩阵运算的地名匹配方法在地名查询场景，当用户查询关键字为无序的，含有拼音，错别字，同音词等，都能快速、精准匹配到用户想要查询的地名，大大给用户带来了方便。

（2）本发明采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题，通过区域分类模型预测出查询关键字的区域数据，再用矩阵计算及向量内积算法对区域数据进行地名精准匹配，可以快速并且精准的匹配用户想要搜索的地名。

附图说明

图1为本发明的一种基于矩阵运算的地名匹配方法的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，一种基于矩阵运算的地名匹配方法，包括以下步骤：

S2、将编码向量输入区域分类模型，得到区域数据；

所述S1中，编码操作的方法具体为TF-IDF编码方法。

所述TF-IDF编码方法具体为：计算关键字的词频和逆文本指数，将词频和逆文本指数相乘得到地址向量；

TF-IDF实际上是TF * IDF，TF-IDF倾向于过滤掉常见的词语，保留重要的词语，其有利于训练朴素贝叶斯概率模型。

其中，计算所述词频

的表达式具体为：

式中，

所述词频

用于表示词条在文本中出现的频率；

计算所述逆文本指数IDF的表达式具体为：

式中，

为包含词条w的文档总数，T为预料库的文档总数。

所述逆文本指数IDF用于说明词条具有的类别区分能力，如果包含词条的文档越少，则IDF越大，词条具有的类别区分能力越好。

所述S2中，得到区域分类模型的方法包括以下分步骤：

所述S21中，预处理包括数据增强和编码操作；

其中，所述地名底表包括地名和地名对应的地名描述。

所述S21中，对地名底表中数据进行数据增强的方法具体为：

在地名底表的地名描述中加入拼音、错别字和同音词；

所述编码操作的方法具体为TF-IDF编码方法。

所述S22中，朴素贝叶斯模型的贝叶斯公式为下式：

式中，A为地名描述，Ｂ为区域类别，

为预测概率通式。

本发明基于朴素贝叶斯模型训练得到的区域分类模型进行区域分类的时，精度达到了99.95%。

所述S3包括以下分步骤：

S31、根据所述区域数据得到区域矩阵和独热编码字典；

S33、根据关键字向量和区域矩阵，得到匹配向量；

所述S31中，得到独热编码字典的方法具体为：

得到区域矩阵的方法具体为：

在本实施例中，将地名底表按照区域划分为12个地名区域子表，在地名区域子表内去掉部分通用词，如像“成都市”、“武侯区”这样的词已经对匹配没有实际含义了，将其去掉来减小向量的维度进而减少计算机的计算量。然后对每一个词进行编码，生成独热编码字典，具体格式如下：

{"翠堤春晓": 0, "沙堰街": 1, "社区": 2, "8号": 3, "春晓": 4, "晋阳":5, "晋阳街道办事处": 6, "街道": 7, "街道办": 8, "办事": 9, "办事处": 10, "晋阳社区": 11, ...}

地名区域子表内所有地名词的个数，作为此字典的大小，此后生成向量的维度也就为多大。例如：武侯区地名描述共有20000多个词汇，则由独热编码生成的向量有20000维。

如果某段地址描述分词后如下：

“翠堤春晓街道8号办事处”

则根据独热编码字典生成的向量为：

则根据地名区域子表中所有的地址描述构建如下矩阵，得到区域矩阵。

区域矩阵的维度为

，

为地名区域子表中地名的总数，

为地名区域子表中任一地名。

本发明在区域内对于地址匹配，不需要其语义信息，也不需要关注文本上下文关系，只需保证尽可能与用户搜索的内容匹配更多相同的字符，因为已经做了数据增强，所以对用户来说感觉就比较智能了。因此地名匹配只关注“有没有”的问题，选择简单的独热编码。

所述S33中，得到匹配向量

的表达式具体为：

式中，

为关键字向量，

为区域矩阵。

匹配向量

的n列索引位置的数据为输入关键字的文本与区域内所有地名的相似度。

由于本申请采用了特殊的独热编码方式编码输入关键字的文本和区域矩阵，所以

与

中的元素都为1，假设

则有：

其中：

与

的内积为两个向量相同位置索引上具体数据都为1的个数，即输入关键字的文本与区域某地址相同词的个数，则相同词越多，

与

的内积就越大，返回的匹配值越高。

本发明的有益效果为：本发明提供的一种基于矩阵运算的地名匹配方法在地名查询场景，当用户查询关键字为无序的，含有拼音，错别字，同音词等，都能快速、精准匹配到用户想要查询的地名，大大给用户带来了方便。

本发明采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题，通过区域分类模型预测出查询关键字的区域数据，再用矩阵计算及向量内积算法对区域数据进行地名精准匹配，可以快速并且精准的匹配用户想要搜索的地名。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。