CN110990724B

CN110990724B - 一种基于滑动窗口采样的空间语义相似度计算方法

Info

Publication number: CN110990724B
Application number: CN201911018798.1A
Authority: CN
Inventors: 王博智; 费腾; 杜清运; 康雨豪; 李梦
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2023-06-06
Anticipated expiration: 2039-10-24
Also published as: CN110990724A

Abstract

本发明公开了一种基于滑动窗口采样的空间语义相似度计算方法，首先对包含空间信息的语料数据进行预处理，然后采用预设等面积投影方法对预处理后的语料数据中的坐标进行投影处理获得实际空间范围，接着确定上下文窗口并进行滑动采样，最后对整个语料的词语集合中的每两个词语进行相似度计算。本发明通过挖掘词语之间的空间语义相似关系，构建出一个可以度量词语空间语义相似度的模型。其在综合考虑空间相关性和文本相关性的方面，优于传统的文本相似度模型和地理空间相似度模型。作为综合人的空间思维和空间感知来理解人类自然语言的新角度，对传统的自然语义相似度模型进行了有效补充，有效改善智能地理信息检索和推荐系统的准确性。

Description

一种基于滑动窗口采样的空间语义相似度计算方法

技术领域

本发明涉及地理信息检索技术领域，具体涉及一种基于滑动窗口采样的空间语义相似度计算方法。

背景技术

对于当前计算机和语言学交叉学科下的自然语言处理问题(NLP)来说，计算文本中词语之间的相似度关系，是解决这些问题的关键部分。

现有技术中，通用的词语相似度模型都采用大文本语料库和深度学习训练的方法得到，如Google公司的Word2Vec(Mikolov,Chen et al.2013)模型和Facebook公司的Fasttext(Joulin,Grave et al.2016)模型。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

现有技术中的上述模型在通用的一般文本上表现良好，但在涉及到处理包含空间关系信息的语料库时，这些模型则表现较差，具体体现在无法真正得到词语的空间语义关系，如：对于‘啤酒’一次进行相近词语检索，在Word2vec模型只能捕捉到‘红酒’，‘酒精’等文本语义相近的词语；而‘酒吧’，‘派对’，‘乐队’等与‘啤酒’在空间上下文中相近的空间语义信息则无法被捕捉到，而这些环境信息对于兼顾上下文的地理信息检索系统是非常重要的。另外一方面，地理信息检索(Geographical Information Retrieval)在处理空间信息的相似度时，通常采用分别计算空间信息的文本相似度和空间相似度，最后再将二者加权相加的方法(Buyukokkten,Cho et al.1999,Purves,Clough et al.2018)。但是，这样的方法在本质上没有将语言放在空间上下文中作为一个整体去考虑，因此在处理主题不明确的地理信息文档时会返回错误的相似度结果，如：当用户在进行‘武汉市的酒吧’这一检索任务时，对于一个名为‘绿色长廊’的文档(这篇文档是对武汉市一家同名的酒吧进行描述的文档，其文档中只包含对于酒吧气氛、环境的描述，如吵闹、乐队、威士忌)，传统的地理信息检索方法在对这篇文档中的词语进行检索时，因为没有发现在文本相似度上与检索关键词‘酒吧’相关的词语(如酒馆、餐吧、沙龙)，从而到这篇实际有效的文档被漏掉。

综上所述，在研究及应用涉及空间信息的语言学问题时，传统的自然语义相似度模型不足以胜任，而传统的地理信息检索系统在处理主题模糊的信息时表现不足，也就是说，现有技术中的方法在处理包含空间关系信息和主题模糊的信息时存在准确性不够的技术问题。

发明内容

有鉴于此，本发明提供了一种基于滑动窗口采样的空间语义相似度计算方法，用以解决或者至少部分解决现有技术中的方法在处理包含空间关系信息和主题模糊的信息时存在的准确性不够的技术问题。

为了解决上述技术问题，本发明提供了一种基于滑动窗口采样的空间语义相似度计算方法，包括：

步骤S1：对包含空间信息的语料数据进行预处理，其中，空间信息为GPS坐标；

步骤S2：采用预设等面积投影方法对预处理后的语料数据中的GPS坐标进行投影处理，获得实际空间范围，且语料数据中的词语与投影后的空间坐标一一对应；

步骤S3：根据投影后的空间坐标的大小，确定上下文窗口，并通过一个预设大小的正方形在上下文窗口中进行采样，获得采样结果，其中，采样结果包括不同尺度的上下文窗口以及与每个上下文窗口对应的词语集合，每个上下文窗口对应的词语集合构成整个语料的词语集合；

步骤S4：对整个语料的词语集合中的每两个词语进行相似度计算。

在一种实施方式中，步骤S1具体包括：

采用N-gram算法进对包含空间信息的语料数据进行分词处理，得到格式为‘词语-坐标’的形式的数据。

在一种实施方式中，步骤S2具体为采用贝尔曼等面积圆柱投影方法对预处理后的语料数据中的GPS坐标进行投影处理，投影的具体公式为：

其中，(x′，y′)表示投影转换前的GPS坐标，(x，y)为Behrmann投影转换后的坐标。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：从所有投影后的空间坐标中找出最大值和最小值，根据空间坐标的最大值和最小值确定出一个最小外接矩形；

步骤S3.2：设置上下文窗口，从最小外接矩形的左下角开始采样，采样时记录上下文窗口所对应的空间范围内包含的词语；

步骤S3.3：按照预设长度进行水平方向的采样，然后按照预设长度进行垂直方向采样，采样时记录上下文窗口所对应的空间范围内包含的词语，直到整个最小外接矩形采样完成，获得采样结果，其中，整个语料C的采集集合为C:{d₁，d₂…d_n}，每个上下文窗口d_i包含的词语集合为d_i:{w₁，w₂…w_n}。

在一种实施方式中，步骤S4具体包括：

步骤S4.1：从整个语料的词语集合W中取出两个词语；

步骤S4.2：采用下述公式对两个词语进行空间语义相似度计算：

其中，

表示词语w₁和w₂的空间语义相似度，/>

表示同时包含w₁和w₂的空间窗口的个数，/>

表示包含w₁的空间窗口的个数，/>

表示包含w₂的空间窗口的个数。

在一种实施方式中，在步骤S3之后，所述方法还包括：

将所有的词语对作为键，每个词语对的空间语义相似度作为值，以Key-Value的形式保存，构建空间语义相似度模型。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

由于本发明提供的方法将地理信息中的文本相似度和空间相似度作为一个整体考虑，采用可变大小的滑动窗口来在带有空间信息语料库中进行采样，计算不同词语在窗口中共现概率的方法，计算出词语之间的更加准确的不同尺度下的空间语义相似度，便于与文本语义相似度算法得到的语义相似度进行对比；并且多尺度的特性有助于发现词语随着空间尺度的变化，其相关性的变化规律和模式，有利于发现和解释语言的使用空间分布规律。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于滑动窗口采样的空间语义相似度计算方法的流程示意图；

图2为本发明实施例的数据预处理流程图；

图3为本发明实施例的Behrmann投影示意图；

图4为本发明实施例的空间滑动窗口采样示意图；

图5为本发明实施例的特征尺度下代表词语示意图；

图6为本发明实施例的文本语义和空间语义联合模型图。

具体实施方式

本发明针对现有技术中的方法在处理包含空间关系信息和主题模糊的信息时存在准确性不够的技术问题，提供一种基于众源地理大数据和滑动窗口采样的空间语义相似度计算方法，挖掘词语之间的空间语义相似关系，构建出一个可以度量词语空间语义相似度的模型，作为综合人的空间思维和空间感知来理解人类自然语言的新角度，对传统的自然语义相似度模型进行了有效补充，有效改善智能地理信息检索和推荐系统的准确性。

为达到上述目的，本发明的主要构思如下：

基于众源地理大数据和滑动窗口采样的空间语义相似度计算方法，挖掘词语之间的空间语义相似关系，构建出一个可以度量词语空间语义相似度的模型。可以调节参数，改变空间滑动空间窗口的大小，计算同一份语料在不同空间尺度下的空间语义相似度，有利于词语的空间语义相似度在同一尺度内、或不同尺度进行对比、分析、排序、聚类。其在综合考虑空间相关性和文本相关性的方面，优于传统的文本相似度模型和地理空间相似度模型。作为综合人的空间思维和空间感知来理解人类自然语言的新角度，对传统的自然语义相似度模型进行了有效补充，有效改善智能地理信息检索和推荐系统的准确性。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种基于滑动窗口采样的空间语义相似度计算方法，请参见图1，该方法包括：

步骤S1：对包含空间信息的语料数据进行预处理，其中，空间信息为GPS坐标。

具体来说，包含空间信息的语料数据C，其数据组织方式可以为:

C:{[s₁，g₁]，[s₂，g₂]…[s_n，g_n]}

其中，s为一个句子，g为该句子对应的GPS坐标，预处理可以包括词语的过滤、去重等。

步骤S2：采用预设等面积投影方法对预处理后的语料数据中的GPS坐标进行投影处理，获得实际空间范围，且语料数据中的词语与投影后的空间坐标一一对应。

具体来说，为了保证词语与空间坐标一一对应以及滑动空间窗口对应的实际空间范围大小相等，本发明采用预设等面积投影方法进行投影处理。

步骤S3：根据投影后的空间坐标的大小，确定上下文窗口，并通过一个预设大小的正方形在上下文窗口中进行采样，获得采样结果，其中，采样结果包括不同尺度的上下文窗口以及与每个上下文窗口对应的词语集合，每个上下文窗口对应的词语集合构成整个语料的词语集合。

具体来说，预设大小可以根据实际情况进行调整，上下文窗口的尺寸也可以调整，通过改变空间上下文窗口d的大小来进行计算，可以得到不同尺度下的词语的空间语义相似度，然后可在特定尺度或交叉尺度下进行空间语义相似度的查询、排序和聚类任务。

具体来说，通过前述步骤可以得到与每个尺度上下文窗口对应的词语集合，然后从整个语料的词语集合中随机取出两个词语，两两进行相似度计算。

在一种实施方式中，步骤S1具体包括：

具体实施过程中，首先采用N-gram算法对每个句字s进行分词处理，处理后结果为：

s:{w₁，w₂…w_n}

然后对每个句子s中的所有词语w进行去重处理，保证数据的稳定性，最终数据格式处理为‘词语-坐标’的形式。

具体来说，本发明中采用的数据为带有空间信息的语料，组织形式为每个句子对应一个坐标，对每个句子进行处理后，得到每个词语对应一个坐标。

在一种实施方式中，步骤S3具体包括：

具体来说，按照投影后的空间坐标的极值可以确定出一个最小外接矩形，从而保证所有投影后的坐标都包含在矩形内。然后根据最小外接矩形，进行上下文窗口的设计。

具体为：在空间上边长为x的正方形d，上下文窗口从整个矩形范围的左下角开始采样，采样时系统记录窗口所对应的空间范围内包含的词语。完成一次记录后，窗口在水平方向移动s长度，开始第二次记录。当移动到一行的末端时，往垂直方向移动s长度，开始在第二行进行采样，直到整个矩形范围内的所有采样完。对于整份语料C，其采样集合可以表示为C:{d₁，d₂…d_n}。对于每个上下文窗口d_i，其包含的词语集合可以表示为d_i:{w₁，w₂…w_n}。

其中，正方形d的尺寸和移动长度s均可以根据需要进行调整，具体实施时，通过改变空间上下文窗口d的大小来进行计算，可以得到不同尺度下的词语的空间语义相似度，然后可在特定尺度或交叉尺度下进行空间语义相似度的查询、排序和聚类任务。

在一种实施方式中，步骤S4具体包括：

步骤S4.1：从整个语料的词语集合W中取出两个词语；

其中，

表示词语w₁和w₂的空间语义相似度，/>

表示同时包含w₁和w₂的空间窗口的个数，/>

表示包含w₁的空间窗口的个数，/>

表示包含w₂的空间窗口的个数。

在一种实施方式中，在步骤S3之后，所述方法还包括：

本发明将地理信息中的文本相似度和空间相似度作为一个整体考虑，采用可变大小的滑动窗口来在带有空间信息语料库中进行采样，计算不同词语在窗口中共现概率的方法，计算出词语之间的更加准确的不同尺度下的空间语义相似度，便于与文本语义相似度算法得到的语义相似度进行对比；并且多尺度的特性有助于发现词语随着空间尺度的变化，其相关性的变化规律和模式，有利于发现和解释语言的使用空间分布规律。

为了更好地理解本发明的技术方案，下面以一个具体的示例对本发明提出的相似度计算方法进行详细描述。

其技术方案和实施步骤包括：

步骤1)以Flickr的带有地理信息的用户标签数据作为基础语料库，首先对其进行数据清洗和数据预处理，具体包括：S1非拉丁字母过滤模块，S2非英文单词过滤模块，S3重复词语过滤模块，S4自动生成词语过滤，其模块构成和处理流程如图2所示。处理完成后，语料库共包含6148个词语，以及这些词语所对应的205961561个坐标。

步骤2)对经过预处理的语料数据所对应的地理数据，即GPS坐标进行Behrmann投影，其投影示意图如图3所示。进一步的，确定出所有坐标的最小外接矩形范围，作为采样范围。

步骤3)在采样范围中，设计边长为1km的正方形网格为滑动采样窗口(即上下文窗口)，从矩形的左下角开始采样，收集落在采样窗口范围内的空间上的词语并存储，为一次采样。完成一次采样后，在水平方向上移动0.1km，垂直方向上不移动，进行第二次采样，以此类推。直到完成水平方向上一行的采样后，在垂直方向上移动0.1km，进行第二行的采样，以此类推，直到整个语料所对应的矩形范围都被采样，采样工作完成。至此，得到整个语料的滑动窗口采样集合。集体的采样方式如图4所示。

使用边长为1km的滑动窗口完成采样后，以0.5km为步长，增大滑动窗口的尺寸，可以在更大尺度上进行采样，以便计算不同尺度下的词语的空间语义相似度。

步骤4)对于每个尺度下的样本集合，计算每两个词语之间的空间语义相似度，算法为：

完成每个尺度下的词语空间语义相似度计算后，将其存储作为多尺度的语义相似度模型。从而可对词语的空间语义相似度在特定尺度和不同尺度上进行分析、聚类和比较。本实施方式将0-100km的尺度划分为neighborhood scale，city scale,national scale共3个尺度，其参数如表1所示。

表1三种特征尺度的参数

通过对空间语义相似度在不同尺度上的变化率(一阶导数)进行分析，发现在不同尺度下增长率最大的示例词语，如图5所示。可以看出：neighborhood scale下的词语描述的是小场景的人居生活环境、基础设施、情感表达等；city scale下的词语描述的是城市尺度下的地标建筑等；national scale下的词语描述的是在国家范围内的自然现象等。另外，与通过Word2vec得到的模型建立联合模型，可以看到两种度量方式存在差异，说明考虑词语的空间语义相似度，挖掘到了文本语义相似度之外的空间信息，如图6所示。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。