CN117009614A

CN117009614A - 一种地理信息资源检索意图检测方法及计算机可读介质

Info

Publication number: CN117009614A
Application number: CN202310900690.5A
Authority: CN
Inventors: 桂志鹏; 姜屿涵; 龚健雅; 吴华意; 凌志鹏; 刘欣婕; 赵安琪
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-11-07
Anticipated expiration: 2043-07-20
Also published as: CN117009614B

Abstract

本发明提出了一种地理信息资源检索意图检测方法及计算机可读介质。本发明设计一种意图‑子意图‑维度分量三层嵌套的地理信息资源检索意图形式化表达模型；以用户相关反馈样本为顶点、样本间属性的同义与上下位关系为边，生成语义泛化程度不同的多个超图构图方案；定义分割代价度量指标实现最优超图构图及超图分割方案的选择，得到多个可能表达同一检索子意图的子超图；从每个子超图中提取子意图并评价其置信度，然后合并所有子意图为意图。本发明能够挖掘用户相关反馈正样本属性间的潜在关联，显式描述意图中的复合语义，有助于发现隐藏意图并应对部分反馈样本元数据缺失导致意图无法完整表达的问题，支持各类地理信息资源的精准鲁棒检索。

Description

一种地理信息资源检索意图检测方法及计算机可读介质

技术领域

本发明属于地理信息检索技术领域，尤其涉及一种地理信息资源检索意图检测方法及计算机可读介质。

背景技术

随着地理与地球科学数据采集与共享技术日益完善，互联网上各式地理信息资源大量涌现，为地学研究与应用提供丰富数据资源的同时，也给准确的资源检索与发现带来巨大挑战。目前，地理信息资源的检索方法大致分为基于语义的检索、基于内容的检索和基于用户相关反馈的检索。基于语义的检索通过匹配用户输入的检索词与资源元数据中的标题、描述等字段实现检索，这类方法可解释性强但过度依赖用户对文本化检索条件的精准表述，亦难以应对数据资源元数据字段缺失导致的匹配失效问题。基于内容的检索利用图像的多模态特征信息进行相似度匹配完成检索，能够应对元数据缺失或错误的问题，但容易导致视觉特征的“过拟合”(例如匹配中过度关注地理要素的几何形态等底层视觉特征，误将等高线识别为河流)与“欠匹配”(例如检索需求为水体时，若输入的样例图像中仅为线状水体则面状水体无法匹配)，难以跨越底层图像特征与高层语义之间的“语义鸿沟”。基于用户相关反馈的检索，利用用户对当前检索结果的相关反馈数据训练分类器或构建典型样本进行重检索，实现检索结果的精化，该方法降低了用户检索需求表达的成本，但由于缺少对用户检索需求的显式建模，导致检索需求理解不准确且检索结果可解释性差。

基于意图的检索通过显式建模与识别用户需求提高检索精度，可为地理信息资源检索提供新的技术途径。基于预定义类别的意图识别方法在建立意图分类体系的基础上，利用决策树、支持向量机或深度学习模型识别潜在意图，但这种方法仅能表达检索意图的大致范围，无法准确刻画用户需求的具体内容；基于词项向量的方法，先从用户相关反馈数据中提取关键词集合作为意图模型，然后将关键词集合作为查询条件重检索，但该方法未考虑词项的语义及词项间的逻辑关系，难以全面准确定位用户兴趣资源。此外，上述意图识别方法，难以应对一次检索任务中存在多个检索需求的复杂地理信息资源检索场景，容易导致意图识别不全或失败。

发明内容

针对现有技术的不足，本发明提出了一种地理信息资源检索意图检测方法及计算机可读介质。

本发明使用超图建模反馈样本间的属性同义与上下位关系，显式描述子意图维度分量内的复合语义，并挖掘维度间的潜在关联，有助于发现隐藏意图并应对部分反馈样本元数据缺失导致意图无法完整表达的问题，以支持各类地理信息资源的精准与鲁棒检索。

本发明方法的技术方案为一种地理信息资源检索意图检测方法，包括以下步骤：

步骤S1：设计一种“意图-子意图-维度分量”三层嵌套的地理信息资源检索意图形式化表达模型；

步骤S2：以用户相关反馈样本为顶点、样本间属性的同义与上下位关系为边，生成语义泛化程度不同的若干个超图构图方案；

步骤S3：定义分割代价度量指标实现最优超图构图及对应的超图分割方案的选择，得到若干个可能表达同一检索子意图的子超图；

步骤S4：从每个子超图中提取对应的子意图并评价其置信度，然后将所有子意图合并为意图。

在一种实施方式中，步骤S1具体包括：

步骤S11：定义用户地理信息资源检索意图由若干个子意图构成；

步骤S12：定义子意图中可以用于约束检索条件的多种维度分量；

步骤S13：定义每种维度分量上可能的概念取值集合。

在一种实施方式中，步骤S2具体包括：

步骤S21：将当前用户相关反馈中每个正样本作为超图的顶点；

步骤S22：构建每个正样本对应的标签集合；

步骤S23：使用基于语义的频繁项集挖掘方法，得到在多个正样本的标签集合中频繁共现的多个标签组合；

步骤S24：生成每个标签组合对应的超图构图方案。

在一种实施方式中，步骤S3具体包括：

步骤S31：结合周氏归一化拉普拉斯算子得到每个超图的拉普拉斯矩阵，并求解拉普拉斯矩阵的特征值和特征向量；

步骤S32：基于分割代价度量指标实现K-means聚类算法参数的自适应设定，生成每个超图的分割方案；

步骤S33：基于分割代价度量指标，从多个标签组合对应的多个超图的分割方案中选出一个超图的分割方案作为最优分割方案，并输出该方案对应的一组子超图。

在一种实施方式中，步骤S4具体包括：

步骤S41：计算每个子超图中每条超边的覆盖度，筛选出高于顶点覆盖度阈值的超边构建子意图的维度分量；

步骤S42：计算每个子意图的置信度；

步骤S43：将所有子意图合并为意图。

在一种实施方式中，步骤S11所述用户地理信息资源检索意图由若干个子意图构成，具体如下：

其中，I为用户地理信息资源检索意图，M为子意图的数量，I^k为意图中第k个子意图，∨表示逻辑“或”关系，k∈[1,M]；

在一种实施方式中，步骤S12所述子意图中可以用于约束检索条件的多种维度分量，具体如下：

其中，N为维度分量的数量，表示第k个子意图中第j个维度分量，∧表示逻辑“与”关系，j∈[1,N]；

在一种实施方式中，步骤S13所述每种维度分量上可能的概念取值集合，具体如下：

其中，为意图中第k个子意图的第j个维度分量中第h个概念取值，H为概念取值的数量，/>无同义与上下位关系，h∈[1,H]，x∈[1,H]，y∈[1,H]。

在一种实施方式中，步骤S21所述将当前用户相关反馈中每个正样本作为超图的顶点，即每个正样本对应超图的每个顶点；

在一种实施方式中，步骤S22所述构建每个正样本对应的标签集合，具体如下：

获取用户相关反馈的多个正样本及每个正样本的多个标签，所述标签为外部知识库中的概念，与用户地理信息资源检索意图中的概念取值来源相同；

基于外部知识库中概念的同义和上下位关系，获取所有标签的多个最低公共祖先标签；

为每个正样本构建由多个标签和多个最低公共祖先标签共同构成的标签集合；

在一种实施方式中，步骤S23所述使用基于语义的频繁项集挖掘方法，得到在多个正样本的标签集合中频繁共现的多个标签组合，具体如下：

1)采用Apriori算法，将每个正样本标签集合中的单个标签作为频繁项集挖掘中的单个项，计算所有单个项的支持度；

所述支持度定义为：每个项在所有正样本标签集合中出现的频率；

2)判断所有单个项的支持度是否大于最小支持度阈值，若是则保留，若不是则剔除，得到频繁1项集；

3)以频繁n-1项集为基础(初始n＝2)，连接生成候选n项集，每个项集是由n个标签组成的集合；

4)基于外部知识库中概念的同义和上下位关系，剔除候选n项集中不满足单个项取值无同义或上下位概念约束的项集；

5)计算候选n项集中每个项的支持度；

判断每个项的支持度是否大于最小支持度阈值，若是则保留，若不是则剔除，得到频繁n项集；

6)若频繁n项集为空或只有一项，输出所有频繁项集，迭代结束；

否则，令n＝n+1，转入3)；

7)在所有频繁项集中，最大程度合并任意单个项取值无同义与上下位概念关系的项，得到所有频繁项集下的多个标签组合；

在一种实施方式中，步骤S24所述生成每个标签组合对应的超图构图方案，具体如下：

将每个标签组合中的每个标签作为一个超图中一条超边的取值；

将每条超边的取值依次与每个正样本的多个标签进行语义判断，得到每条超边包含的多个顶点、每个顶点关联的多条超边，具体如下：

使用以每个顶点为行元素、每条超边为列元素的点边关联矩阵描述超图中顶点和超边的关系，若超边的取值为正样本的多个标签中任意一个标签的同义或上位概念，则超边包含正样本对应的顶点，即该顶点关联该超边，点边关联矩阵中顶点和超边对应的行列取值为1，否则为0；

将每条超边包含的顶点数量定义为超边的度；

基于信息量度量方法计算每条超边的权重，计算过程如下：

其中，w_t,q为频繁项集下第t个标签组合对应的超图中第q条超边e_t,q的权重，δ(e_t,q)为超边e_t,q的度，v_t,q为超边e_t,q包含的第v_t,q个顶点，L_t,q为超边e_t,q包含的顶点的数量，Dis(v_t,q，e_t,q)为通过概念信息量度量方法计算的第v_t,q个顶点到超边e_t,q的距离，μ为权重的归一化系数，q∈[1,Q]，t∈[1,Z]，Q为超图中超边的数量，Z为标签组合的数量；

将每个顶点关联的超边的权重之和定义为顶点的度；

构建超图中超边的权重矩阵，具体定义如下：

其中，|E_t|表示频繁项集下的第t个标签组合对应的超图中超边集合的模长，即该超图中超边的数量，W_t表示该超图的权重矩阵，W_t为对角阵，对角阵上的每个元素对应每条超边的权重，表示实数集；

构建超图中超边的度矩阵，具体定义如下：

其中，|E_t|表示频繁项集下的第t个标签组合对应的超图中超边集合的模长，即该超图中超边的数量，D_t,e表示该超图中超边的度矩阵，D_t,e为对角阵，对角阵上的每个元素对应每条超边的度，表示实数集；

构建超图中顶点的度矩阵，具体定义如下：

其中，|V_t|表示频繁项集下的第t个标签组合对应的超图中顶点集合的模长，即该超图中顶点的数量，D_t,v表示该超图中顶点的度矩阵，D_t,v为对角阵，对角阵上的每个元素对应每个顶点的度，表示实数集。

在一种实施方式中，步骤S31所述结合周氏归一化拉普拉斯算子得到每个超图的拉普拉斯矩阵，并求解拉普拉斯矩阵的特征值和特征向量，具体如下：

基于周氏归一化拉普拉斯算子，使用每个超图的点边关联矩阵、超边的权重矩阵、超边的度矩阵和顶点的度矩计算得到该超图的拉普拉斯矩阵，拉普拉斯矩阵的行、列的长度均为该超图中顶点的数量；

拉普拉斯矩阵的特征向量长度为超图中顶点的数量，特征向量的每个元素对应顶点的特征；

在一种实施方式中，步骤S32基于分割代价度量指标实现K-means聚类算法参数的自适应设定，生成每个超图的分割方案，具体如下：

1)选择前K小的特征值对应的特征向量作为待聚类的特征矩阵(初始K＝2)，矩阵中的行向量表示每个顶点的特征序列；

2)利用K-means聚类方法对该特征矩阵进行聚类，将超图的顶点集合分割为K个簇；所述超图的顶点集合为：

data_t＝(T_t,1,T_t,2,…,T_t,K)

其中，data_t为频繁项集下的第t个标签组合对应超图的顶点集合，T_t,z为第z个簇，K为聚类的数量，z∈[1,K]；一个簇T_t,z对应超图分割结果中的一个子超图，包含若干顶点及覆盖这些顶点的超边；

3)计算超图的分割代价度量指标，具体如下：

其中，CC_t为频繁项集下的第t个标签组合对应超图的分割代价度量指标，T_t,z为第z个簇，vol表示使用标准化超图剪切方法计算的超图体积，表示使用标准化超图剪切方法计算的超图边界体积，K为聚类的数量，z∈[1,K]；

4)更新K＝K+1，重复执行步骤1)-3)，直至CC_t≥γ或者K≥num时，γ表示分割阈值，num表示最大迭代次数；

5)将分割代价度量指标最小的分割结果作为当前超图构图方案对应的超图分割方案；

在一种实施方式中，步骤S33所述基于分割代价度量指标，从多个标签组合对应的多个超图的分割方案中选出一个超图的分割方案作为最优分割方案，并输出该方案对应的一组子超图，具体如下：

在多个超图构图方案及其对应的超图分割方案中，以分割代价度量指标最小时的超图构图方案及其对应的超图分割方案作为最优选择；

输出若干个可能表达同一检索子意图的子超图。

在一种实施方式中，步骤S41所述计算每个子超图中每条超边的覆盖度，筛选出高于顶点覆盖度阈值的超边构建子意图的维度分量，具体如下：

定义每条超边的覆盖度为该超边在子超图中包含的顶点个数占子超图顶点总数的比例；

筛选出高于顶点覆盖度阈值的超边；

获取每条超边的值，将其作为用户地理信息资源检索意图中子意图维度分量的概念取值；

在一种实施方式中，步骤S42所述计算每个子意图的置信度，具体如下：

其中，Conf(I^a)表示第a个子超图对应的第a个子意图的置信度，vol表示使用标准化超图剪切方法计算的超图体积，g_a表示第a个子超图，a∈[1,K]；max(vol(g_a))为子超图g_a的顶点个数乘以超边的条数，K为子超图的数量；

在一种实施方式中，步骤S43所述将所有子意图合并为意图，表示以逻辑“或”的关系连接所有子意图为意图。

本发明还提供了一种计算机可读介质，所述计算机可读介质存储电子设备执行的计算机程序，当所述计算机程序在电子设备上运行时，执行所述地理信息资源检索意图检测方法的步骤。

与现有技术相比，本发明具有如下优点和有益效果：

本发明提出一种基于超图分割的地理信息资源检索意图识别方法。定义子意图中的维度分量可以由多个概念取值组成，以便表达子意图中的复合概念，能够提升意图识别的准确性；融合语义的频繁项集挖掘，能够更好地捕捉反馈样本各维度分量内及维度间的语义关联，而利用超图建模反馈样本间的属性同义与上下位关系，有助于挖掘隐藏意图，克服部分反馈样本元数据缺失导致意图无法完整表达的问题；基于超图分割的意图识别方法，通过建立簇、子超图、子意图之间的映射关系，应对一次检索任务中涉及多个需求的情况；建立子意图的置信度评价机制，可为迭代式相关反馈中高可信意图的筛选提供依据。本发明方法可推广应用于各类地理信息门户，实现地理信息资源的精准与智能检索，提升地理信息共享与发现的服务品质。

附图说明

图1：本发明实施例的方法流程图。

图2：本发明实施例的检索意图形式化表达模型图。

图3：本发明实施例的基于频繁项集挖掘生成标签组合示意图。

图4：本发明实施例的基于超图建模反馈样本间属性同义与上下位关系示意图。

图5：本发明实施例的子意图提取及置信度评价机制示意图。

图6：本发明实施例的四种典型检索场景下意图识别效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

下面结合图1-6介绍本发明实施例的技术方案为一种地理信息资源检索意图检测方法，如图1所示为本发明的方法流程图，包括以下步骤：

步骤S1：如图2所示，设计一种“意图-子意图-维度分量”三层嵌套的地理信息资源检索意图形式化表达模型；

步骤S11：定义用户地理信息资源检索意图由若干个子意图构成，以下步骤具体介绍如何表达“使用分级统计图法制作且主题为地质关于土壤中矿物质含量的地图，或使用分级统计图法制作且主题为农业与生物多样性的渔业地图”的地图检索意图：

其中，I为用户地理信息资源检索意图，M为子意图的数量，I^k为意图中第k个子意图，∨表示逻辑“或”关系，k∈[1,M]；可根据此意图模型将其形式化表达为“I＝[{地图内容：土壤矿物质,制图方法：分级统计图法,地理主题：地质},{地图内容：渔业,制图方法：分级统计图法,地理主题：农业、生物多样性}]”，其中“I¹＝{地图内容：土壤、矿物质,制图方法：分级统计图法,地理主题：地质}”和“I²＝{地图内容：渔业,制图方法：分级统计图法,地理主题：农业、生物多样性}”分别为两个子意图，子意图与子意图之间是“或”关系；

步骤S12：子意图中可以用于约束检索条件的多种维度分量，具体如下：

其中，N＝3为维度分量的数量，表示第k个子意图中第j个维度分量，∧表示逻辑“与”关系，j∈[1,N]；实施例选取“地图内容(Content,C)”、“制图方法(Style,S)”与“地理主题(Topic,T)”3个维度分量，在后文中简称为C、S、T；

步骤S13：每种维度分量上可能的概念取值集合，具体如下：

其中，为意图中第k个子意图的第j个维度分量中第h个概念取值，H为概念取值的数量，/>无同义与上下位关系，h∈[1,H]，x∈[1,H]，y∈[1,H]；以“地图内容：土壤、矿物质”为例，表示第1个子意图I¹第1个维度分量中的第1个概念取值为“土壤”，第1个子意图I¹第1个维度分量中的第2个概念取值“矿物质”，H＝2；

以图3a所示的SWEET本体片段作为本例的外部知识库；

步骤S21：将当前用户相关反馈中每个正样本作为超图的顶点，具体如下：

每个正样本对应超图的每个顶点，以图3b中的5个样本s₁,s₂,s₃,s₄,s₅为例，作为超图中的5个顶点，即v₁(淡水湖,置底法,水资源)，v₂(湖泊,置底法,水资源)，v₃(湾,置底法,水资源)，v₄(淡水湖,河流,线状制图,地质)，v₅(河流,线状制图,地质)；

步骤S22：构建每个正样本对应的标签集合，具体如下：

基于外部知识库中概念的同义和上下位关系，获取所有标签的多个最低公共祖先标签，如图3a的SWEET本体片段所示，“河流”和“淡水湖”的最低公共祖先概念为“水体”；

为每个正样本构建由多个标签和多个最低公共祖先标签共同构成的标签集合如图3b；

步骤S23：使用基于语义的频繁项集挖掘方法，得到在多个正样本的标签集合中频繁共现的多个标签组合，具体如下：

1)采用Apriori算法，将每个正样本标签集合中的单个标签作为频繁项集挖掘中的单个项，计算所有单个项的支持度；如图3b中所示，样本s₁的标签集合为s₁{淡水湖,湖泊,水体,置底法,水资源}，将该集合中的每个标签作为频繁项集挖掘中的单个项，即图3c中候选1项集C1；

所述支持度定义为：每个项在所有正样本标签集合中出现的频率；如图3c中候选1项集C1所示，{河流}在s₄,s₅中均出现，此处共5个样本，{河流}的支持度为40％；

2)判断所有单个项的支持度是否大于最小支持度阈值，若是则保留，若不是则剔除，得到频繁1项集；为了举例及说明方便，此处取最小支持度阈值λ＝30％，由于{湾}的支持度小于λ，剔除该项集，剩余项集为频繁项集，如图3c中频繁1项集L1所示；

4)基于外部知识库中概念的同义和上下位关系，剔除候选n项集中不满足单个项取值无同义或上下位概念约束的项集；参考图3a的SWEET本体关系可知“水体”是“河流”、“湖泊”的上位概念，因此项集{河流，水体}和{水体，湖泊}不满足约束条件，剔除此类项集；

5)计算候选n项集中每个项的支持度；

判断每个项的支持度是否大于最小支持度阈值，若是则保留，若不是则剔除，得到频繁n项集；以项集{河流，湖泊}为例，该二项集共同出现在样本s₄中，支持度为20％，小于支持度阈值λ，剔除该项集；最终输出如图3d中的频繁2项集L2；

否则，令n＝n+1，转入3)；

7)在所有频繁项集中，最大程度合并任意单个项取值无同义与上下位概念关系的项，得到所有频繁项集下的多个标签组合；如图3e中，共合并出两个标签组合，分别为{R₁(C:水体),(S:置底法,线状制图),(T:水资源,地质)}和R₂{(C:河流,湖泊),(S:置底法,线状制图),(T:水资源,地质)}；

步骤S24：生成每个标签组合对应的超图构图方案，具体如下：

将每个标签组合中的每个标签作为一个超图中一条超边的取值；根据图3e示例中的两个标签组合，生成如图4a及图4b所示的超图，其中图4a所示超图中的5条超边为e₁(C,水体,w₁)，e₂(S,置底法,w₂)，e₃(T,水资源,w₃)，e₄(S,线状制图,w₄)，e₅(T,地质,w₅)，图4b所示超图中的6条超边为e₁(C,湖泊,w₁)，e₂(S,置底法,w₂)，e₃(T,水资源,w₃)，e₄(S,线状制图,w₄)，e₅(T,地质,w₅)，e₆(C,河流,w₆)；

使用以每个顶点为行元素、每条超边为列元素的点边关联矩阵描述超图中顶点和超边的关系，若超边的取值为正样本的多个标签中任意一个标签的同义或上位概念，则超边包含正样本对应的顶点，即该顶点关联该超边，点边关联矩阵中顶点和超边对应的行列取值为1，否则为0；图4a所示的超图可由图4c所示的点边关联矩阵刻画，图4b所示的超图可由图4d所示的点边关联矩阵刻画；

将每条超边包含的顶点数量定义为超边的度；

基于信息量度量方法计算每条超边的权重，计算过程如下：

将每个顶点关联的超边的权重之和定义为顶点的度；

构建超图中超边的权重矩阵，具体定义如下：

构建超图中超边的度矩阵，具体定义如下：

构建超图中顶点的度矩阵，具体定义如下：

步骤3：定义分割代价度量指标实现最优超图构图及超图分割方案的选择，得到若干个可能表达同一检索子意图的子超图；

步骤S31：结合周氏归一化拉普拉斯算子得到每个超图的拉普拉斯矩阵，并求解拉普拉斯矩阵的特征值和特征向量，具体如下：

步骤S32：基于分割代价度量指标实现K-means聚类算法参数的自适应设定，生成每个超图的分割方案，具体如下：

data_t＝(T_t,1,T_t,2,…,T_t,K)

3)计算超图的分割代价度量指标，具体如下：

步骤S33：基于分割代价度量指标，从多个标签组合对应的多个超图的分割方案中选出一个超图的分割方案作为最优分割方案，并输出该方案对应的一组子超图，具体如下：

输出若干个可能表达同一检索子意图的子超图。

步骤S4：从每个子超图中提取对应的子意图并评价其置信度，然后将所有子意图合并为意图；

步骤S41：计算每个子超图中每条超边的覆盖度，筛选出高于顶点覆盖度阈值的超边构建子意图的维度分量，具体如下：

筛选出高于顶点覆盖度阈值的超边；将图4b中的超图通过步骤S3分割为图5a中所示，子超图g₁和g₂中超边的顶点覆盖度均大于阈值，全部保留；

获取每条超边的值，将其作为用户地理信息资源检索意图中子意图维度分量的概念取值；如图5b中所示，子超图g₂的e₁(C,湖泊,w₁)和e₆(C,河流,w₆)对应子意图I^a的第1个维度分量(地图内容C)的两个取值{湖泊，河流}；

步骤S42：计算每个子意图的置信度，具体如下：

/>

其中，Conf(I^a)表示第a个子超图对应的第a个子意图的置信度，vol表示使用标准化超图剪切方法计算的超图体积，g_a表示第a个子超图，a∈[1,K]；max(vol(g_a))为子超图g_a的顶点个数乘以超边的条数，K为子超图的数量；为了说明方便，本发明以权重w＝1为例，如图5a所示，计算子意图I¹和I^a的置信度；

步骤S43：将所有子意图合并为意图，具体为：

以逻辑“或”的关系连接所有子意图为意图，即按步骤S1中的地理信息资源检索意图形式化表达模型输出如图5b所示的检索意图；

步骤S5：从意图语义距离和样本覆的盖角度验证意图识别的效果；

步骤S51：从意图语义距离的角度采用意图查准率(Precision)和意图查全率(Recall)验证意图识别的效果，具体为：

使用如下所示的公式计算用户地理信息资源检索意图中子意图的维度分量间的距离Dis(dim)，继而计算用户地理信息资源检索意图中子意图间的距离Dis(intention)，最后将用户地理信息资源检索意图中子意图间的距离归一化至用户地理信息资源检索意图中子意图间的相似度Sim(intention)；定义如下：

Dis(dim)＝min(∑dis(c_u,c_w))

用户地理信息资源检索意图中子意图的维度分量间的距离Dis(dim)等于维度分量中概念取值间的最小距离和，其中dim指维度，使用匈牙利算法确定两个子意图的同一维度分量中概念取值与概念取值之间的映射关系，dis(c_u,c_w)是使用概念信息量度量方法计算的两个概念取值的距离；用户地理信息资源检索意图中子意图间的距离Dis(intention)中Dis(·)指两个子意图同一维度分量间的距离；Sim(intention)中，μ为归一化系数；

意图查准率Precision指识别的意图中，正确意图的比例，定义如下：

TP表示识别的意图对应真实意图的最大语义相似度之和，使用匈牙利算法确定识别意图和真意图最大语义相似度之和的映射关系，TP+FP表示识别的意图数量；

意图查全率Recall指正确识别的意图占真意图的比例，定义如下：

TP表示识别的意图对应真实意图的最大语义相似度之和，使用匈牙利算法确定识别意图和真意图最大语义相似度之和的映射关系，TP+FP′表示真意图的数量；

步骤S52：从样本覆的盖角度采用杰卡德系数(Jaccard coefficient)验证意图识别的效果，具体为：

杰卡德系数Jaccard是一种用于衡量两个集合相似度的指标，杰卡德系数的取值范围在0和1之间，其中0表示两个集合没有共同元素，1表示两个集合完全相同，定义如下：

J(I_true,I_recognoze)表示真实意图I_true与识别意图I_recognize的杰卡德系数，指真实意图覆盖的地理信息资源检索样本集合，/>指识别意图覆盖的地理信息资源检索样本集合，分子为二者的交集，分母为二者的并集；

现将正反馈标签定义为意图维度分量的概念标签及其上位概念、下位概念和其他同义概念标签，具有正反馈标签的样本为正样本，其它样本为负样本。考虑到用户相关反馈中会出现语义泛化(即样本标签为用户检索意图维度分量取值的上位概念)、语义特化(即样本标签为用户检索意图维度分量取值的下位概念)等模糊匹配行为，以及多标签判断(即反馈样本的多个标签中有一定数量的标签满足用户检索意图维度分量取值即标记为正样本)和误选(即用户错误的将负样本标记为正样本)的情况，设置语义模糊度、取值满足率和噪声率模拟用户相关反馈行为，为每个检索意图匹配正负相关反馈样本。其中，语义模糊度为上位概念、下位概念和其他同义概念标签占正反馈标签的比例，用于刻画用户模糊匹配行为；取值满足率为正反馈标签占总标签的比例，用于度量多标签判断行为；噪声率为负样本占总样本的比例，用于度量误选行为。

如图6所示为“单意图单维度”、“单意图多维度”、“多意图单维度”和“多意图多维度”共4种典型检索场景下开展验证实验的意图识别效果图。横轴为取值满足率的范围，分为[0,0.2]、[0.2,0.4]、[0.4,0.6]、[0.6,0.8]和[0.8,1]共5组，纵轴为杰卡德系数Jaccard、意图查准率Precision和意图查全率Recall的值。整体而言，随着取值满足率的增大，各个检索场景中三个指标均以接近1的趋势增大，说明本发明方法具有正确识别意图的能力。另外，在多意图场景中三个指标最终接近1，说明本发明方法可以应对一次检索任务中涉及多个需求的情况。

本发明的具体实施例还提供了一种计算机可读介质。

所述计算机可读介质为服务器工作站；

所述服务器工作站存储电子设备执行的计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行本发明实施例的地理信息资源检索意图检测方法的步骤。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种地理信息资源检索意图检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的地理信息资源检索意图检测方法，其特征在于：步骤S1具体包括：

步骤S13：定义每种维度分量上可能的概念取值集合。

3.根据权利要求1所述的地理信息资源检索意图检测方法，其特征在于：步骤S2具体包括：

步骤S22：构建每个正样本对应的标签集合；

步骤S24：生成每个标签组合对应的超图构图方案。

4.根据权利要求1所述的地理信息资源检索意图检测方法，其特征在于：步骤S3具体包括：

5.根据权利要求1所述的地理信息资源检索意图检测方法，其特征在于：步骤S4具体包括：

步骤S42：计算每个子意图的置信度；

步骤S43：将所有子意图合并为意图。

6.根据权利要求2所述的地理信息资源检索意图检测方法，其特征在于，步骤S11所述用户地理信息资源检索意图由若干个子意图构成，具体如下：

步骤S12所述子意图中可以用于约束检索条件的多种维度分量，具体如下：

步骤S13所述每种维度分量上可能的概念取值集合，具体如下：

7.根据权利要求3所述的地理信息资源检索意图检测方法，其特征在于：

步骤S21所述将当前用户相关反馈中每个正样本作为超图的顶点，具体如下：

每个正样本对应超图的每个顶点；

步骤S22所述构建每个正样本对应的标签集合，具体如下：

获取用户相关反馈的多个正样本及每个正样本的多个标签(所述标签为外部知识库中的概念，与用户地理信息资源检索意图中的概念取值来源相同)；

步骤S23所述使用基于语义的频繁项集挖掘方法，得到在多个正样本的标签集合中频繁共现的多个标签组合，具体如下：

2)判断所有单个项的支持度是否大于最小支持度阈值，若是则保留，若不是则剔除，

得到频繁1项集；

5)计算候选n项集中每个项的支持度；

否则，令n＝n+1，转入3)；

7)在所有频繁项集中，最大程度合并任意单个项取值无同义与上下位概念关系的项，

得到所有频繁项集下的多个标签组合；

步骤S24所述生成每个标签组合对应的超图构图方案，具体如下：

将每条超边的取值依次与每个正样本的多个标签进行语义判断，得到每条超边包含的多个顶点、每个顶点关联的多条超边，具体为：若超边的取值为正样本的多个标签中任意一个标签的同义或上位概念，则超边包含正样本对应的顶点，即该顶点关联该超边；

基于信息量度量方法计算每条超边的权重，计算过程如下：

其中，w_t,q为频繁项集下第t个标签组合对应的超图中第q条超边e_t,q的权重，(_t,q)为超边e_t,q的度，v_t,q为超边e_t,q包含的第v_t,q个顶点，L_t,q为超边e_t,q包含的顶点的数量，Dis(v_t,q，e_t,q)为通过概念信息量度量方法计算的第v_t,q个顶点到超边e_t,q的距离，μ为权重的归一化系数，q∈[1,Q]，t∈[1,Z]，Q为超图中超边的数量，Z为标签组合的数量。

8.根据权利要求4所述的地理信息资源检索意图检测方法，其特征在于：

步骤S31所述结合周氏归一化拉普拉斯算子得到每个超图的拉普拉斯矩阵，并求解拉普拉斯矩阵的特征值和特征向量，具体如下：

步骤S32基于分割代价度量指标实现K-means聚类算法参数的自适应设定，生成每个超图的分割方案，具体如下：

1)选择前K小的特征值对应的特征向量作为待聚类的特征矩阵，初始K＝2，矩阵中的行向量表示每个顶点的特征序列；

data_t＝(T_t,1,T_t,2,…,T_t,K)

3)计算超图的分割代价度量指标，具体如下：

步骤S33所述基于分割代价度量指标，从多个标签组合对应的多个超图的分割方案中选出一个超图的分割方案作为最优分割方案，并输出该方案对应的一组子超图，具体如下：

输出若干个可能表达同一检索子意图的子超图。

9.根据权利要求5所述的地理信息资源检索意图检测方法，其特征在于，步骤S41所述计算每个子超图中每条超边的覆盖度，筛选出高于顶点覆盖度阈值的超边构建子意图的维度分量，具体如下：

筛选出高于顶点覆盖度阈值的超边；

步骤S42所述计算每个子意图的置信度，具体如下：

其中，Conf(^a)表示第a个子超图对应的第a个子意图的置信度，vol表示使用标准化超图剪切方法计算的超图体积，g_a表示第a个子超图，a∈[1,K]；max(vol(g_a))为子超图g_a的顶点个数乘以超边的条数，K为子超图的数量；

步骤S43所述将所有子意图合并为意图，具体如下：

以逻辑“或”的关系连接所有子意图为意图。

10.一种计算机可读介质，其特征在于，其存储电子设备执行的计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1-9任一项所述方法的步骤。