CN114385933B - 一种顾及语义的地理信息资源检索意图识别方法 - Google Patents
一种顾及语义的地理信息资源检索意图识别方法 Download PDFInfo
- Publication number
- CN114385933B CN114385933B CN202210280298.0A CN202210280298A CN114385933B CN 114385933 B CN114385933 B CN 114385933B CN 202210280298 A CN202210280298 A CN 202210280298A CN 114385933 B CN114385933 B CN 114385933B
- Authority
- CN
- China
- Prior art keywords
- intention
- feedback
- sub
- sample
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种顾及语义的地理信息资源检索意图识别方法,包括:1)构建面向地理信息资源检索的意图维度树,并定义意图的形式化表达模型;2)基于相关反馈技术获取反馈样本集合,并计算样本增强系数;3)基于最小描述长度准则设计优化目标函数;4)采用样本随机合并策略生成候选子意图;5)使用贪心算法,调用步骤4)搜索反馈样本编码长度最小的意图,并基于正样本覆盖比例阈值过滤无效子意图,生成意图识别结果;6)基于多次反馈迭代更新意图。本发明利用反馈样本内容语义标签的概念层次关系进行意图识别,并滤除样本中的噪声,具有较高的意图识别准确度及噪声容忍度,可推广应用于各类地理信息门户,提升地理信息共享的服务品质。
Description
技术领域
本发明属于地理信息检索技术领域,具体涉及一种顾及语义的地理信息资源检索意图识别方法。
背景技术
地理信息资源的有效检索对促进网络地理信息的共享与发现具有重要意义。目前,地理信息资源检索主要通过匹配用户输入的检索词与元数据文本,或针对图像型资源计算样例图像与目标资源的视觉相似度实现。然而受到专业知识及背景限制,用户对检索目标或地理信息资源库的认识往往不够深入,输入的检索词或样例图像难以清晰全面地表达其检索需求,同时现有系统仅仅基于用户提供的查询式进行匹配计算,缺乏对用户意图的主动理解,催生“意图鸿沟”。尤其是各类地理信息资源涉及复杂的领域知识,庞杂的地学术语进一步增加了构造检索词的难度;而对于地图等图像型地理信息资源,基于视觉相似性匹配的方法存在过多关注视觉特征而忽略检索目标抽象类属概念的问题,导致检索结果欠佳。基于意图的信息检索通过显式建模与识别用户需求提高检索精度,可为地理信息资源检索提供借鉴。但现有意图形式化表达多采用预定义类别、词项向量等模型,在描述具有多意图多维属性约束特点的地理信息资源检索场景时,缺乏灵活性与扩展性;同时,现有意图识别方法多使用相关反馈技术辅助用户意图表达,但在意图识别过程中较少利用反馈样本标签之间的语义从属关系,且未考虑反馈样本集合所含的标签噪声与反馈噪声,导致意图识别不全或失败。
发明内容
本发明针对现有技术的不足,提供一种顾及语义的地理信息资源检索意图识别方法,利用反馈样本内容语义标签的概念层次关系进行意图识别,并滤除样本中的噪声,具有较高的意图识别准确度及噪声容忍度,可推广应用于各类地理信息门户,提升地理信息共享与发现的服务品质。
为了达到上述目的,本发明提供的技术方案是一种顾及语义的地理信息资源检索意图识别方法,包括以下步骤:
1)构建地理信息资源检索意图维度树,并设计“意图-子意图-维度分量”三层嵌套的意图形式化表达模型,使用领域本体中的概念集合作为维度分量取值来源;
2)基于相关反馈技术,让用户标记出前若干项检索结果中符合检索需求的部分结果,得到反馈样本集合S,并计算样本增强系数α;
3)将意图识别视为组合优化问题,并基于最小描述长度准则,并将反馈样本集合总编码长度作为意图识别优化目标函数;
4)采用样本随机合并策略,根据领域本体中概念的语义关系合并随机选取的正反馈样本,得到候选子意图;
5)基于贪心算法,调用步骤4)搜索使得编码长度减少最多的候选子意图,并合并得到最优候选意图,再基于正样本覆盖比例阈值过滤无效子意图后作为意图识别结果;
6)若用户进入下一次反馈,则基于新一轮的反馈样本集合重复步骤2)至步骤5),更新意图识别结果,否则停止意图迭代更新。
进一步的,步骤1)中构建的层次化的地理信息资源检索意图维度树包括“内容”、“空间”、“时间”和“其他”四个基本顶层维度,并使用可选的“特有维度”辅助表达不同类型的地理信息资源包含的特殊检索需求,可为意图维度的选取提供参考框架;
“意图-子意图-维度分量”形式的意图表示模型包括子意图、维度分量及两者的逻辑关系,一个意图包含若干个子意图,一个子意图包含若干个维度分量,一个维度分量由维度标识符及取值组成,子意图之间为逻辑“或”关系,子意图各维度分量之间为逻辑“与”关系。
进一步的,步骤2)中依据下式计算样本增强系数α,以应对反馈样本不足导致的意图识别失败问题;
式中,S + 为正反馈样本集合;L N (x)为Rissanen提出的整数x通用编码长度,其中省略号指从log(x)开始,依次对前一项取对数得到的所有非负项;L N (|S + |+1)为每个正样本对应一个子意图时编码子意图数量所需长度;d为意图维度数量;C i 为第i个维度对应本体的概念集合;L avg (S|∅)为不基于意图编码时反馈样本的平均编码长度,该平均编码长度基于香农无噪声编码理论计算;y为反馈样本的正负性,即S + 与S - 分别表示S中正、负反馈样本集合;|∙|为集合中元素的数量。
进一步的,所述步骤3)当前意图对应的反馈样本集合总编码长度L(S, I)的计算方式如下:
S31、对于地理信息资源检索意图I中的第k个子意图I k ,遍历反馈样本集合以获取I k 覆盖的反馈样本子集 k ,假设样本各意图维度均已标注若干标签,标签来源于各维度对应
本体概念集合,则判定子意图覆盖反馈样本的规则为:若反馈样本某维度分量的取值集合
中存在某取值在语义上等价或从属于子意图对应维度分量取值,则认为反馈样本在该维度
符合子意图,若反馈样本在所有维度均符合子意图,则子意图覆盖反馈样本;
S32、去除反馈样本集合中各子意图覆盖样本得到剩余样本集合,记为S r ;
S34、若反馈样本被多个子意图覆盖,则仅在平均编码长度L avg ( k |I k )最小的反馈
样本子集中予以保留,即将该反馈样本从其它反馈样本子集中删除,得到去重后的反馈样
本子集,记为S k ;
S35、计算各子意图覆盖的反馈样本子集及剩余样本集合的编码长度,求和得到给定意图后的反馈样本集合编码长度L(S|I),
式中,S k 为子意图I k 覆盖的去重后反馈样本子集;S r 为剩余样本集合;L avg ( k |I k )代
表子意图I k 所含反馈样本的平均编码长度;L avg (S r |I)表示剩余样本的平均编码长度;y为反
馈样本的正负性,即与分别表示S r 中正、负反馈样本集合;|∙|为集合中元素的数量;
S36、计算子意图数量的编码长度与各子意图的编码长度,求和得到意图I的编码长度L(I):
式中,m为子意图数量;L N (m+1)为编码子意图数量所需长度;L(I k )为第k个子意图I k 的编码长度,由采用均匀编码的I k 各维度取值编码长度和I k 覆盖样本数量编码长度两部分组成;C i 为第i个维度对应领域本体的概念集合;d为意图维度数量;S k 为子意图I k 覆盖的去重后反馈样本子集;
S37、根据当前意图编码长度L(I)、给定当前意图后反馈样本集合编码长度L(S|I)及样本增强系数α,计算当前意图对应的反馈样本集合总编码长度L(S, I);
L(S, I) = L(I) + αL(S|I)。
进一步的,步骤4)中候选子意图生成的具体方式如下:
S42、对于每个意图维度,从选取的样本中各抽取一个标签组成标签对,将具有最大语义相似度的标签对作为该维度待合并标签对,其中语义相似度Sim根据改进的Lin相似度计算,如下式所示:
其中c 1与c 2为两个概念,LCA(c 1, c 2)为其最近公共祖先概念,IC(∙)为概念的信息量,采用Yuan提出的概念信息量度量方法计算;
S43、搜索每个维度的待合并值对在领域本体中的最近公共祖先概念,将其作为候选子意图在该维度的取值。
进一步的,步骤5)的具体实现方式如下;
步骤51,将当前意图I设置为空集,表示无意图,将剩余反馈样本集合S r 设置为反馈样本全集S,并根据步骤3计算当前意图对应的反馈样本集合总编码长度L(S, I);
步骤52,将步骤4)重复指定次数得到多个候选子意图,分别添加各候选子意图至当前意图I得到候选意图集合candI_set;
添加时须判断候选子意图与I中子意图之间是否存在覆盖情况,若候选子意图覆盖I中某个子意图,则使用候选子意图替换被覆盖子意图得到候选意图,若候选子意图被某个子意图覆盖,则将I作为候选意图;
步骤53,根据步骤3)计算候选意图集合candI_set中各候选意图对应的反馈样本集合总编码长度,将对应总编码长度最小的候选意图记为candI min ;
步骤54,比较L(S, candI min )与L(S, I)的大小,若L(S, candI min ) 大于L(S, I),则计算I中各子意图覆盖的正样本数与正样本总数的比值,并删除比值小于设定阈值的子意图得到意图识别结果,若L(S, candI min ) 小于或等于L(S, I)则重复执行步骤5)。
进一步的,还包括采用Jaccard系数及最佳映射平均语义相似度指标验证意图识别的准确性,计算公式如下:
式中,S A 、S B 分别为意图识别结果A与真实意图B覆盖的样本集合,f为A到B的一个单
射,F为所有单射的集合,、分别为A、B中的第k 1、k 2个子意图,d为意图维度数量,表示A、B中第k 1、k 2个子意图在第i个维度上的相似度;
针对未识别出子意图的情况,为了计算Jaccard系数与BMASS,将意图各维度取值设置为本体根节点,即无意图。
进一步的,所述步骤6)中意图迭代更新策略为:以意图识别结果为查询条件得到新的检索结果,利用相关反馈技术获取当前反馈样本集合,将前次反馈样本集合与当前反馈样本集合合并去重作为新的反馈样本集合,重新执行步骤2)至步骤5)得到更新后的意图识别结果。
与现有技术相比,本发明具有如下优点和有益效果:
本发明将意图驱动的检索引入地理信息领域,提出一种顾及语义的地理信息资源检索意图识别方法。在设计“意图-子意图-维度分量”意图形式化表达模型的基础上,该方法利用相关反馈技术降低用户意图表达难度;在意图表达与识别过程引入领域本体以捕获反馈样本间语义关联,从而得到顾及语义关系的检索意图;将意图识别视为组合优化问题,使用可兼顾准确性与简洁性的MDL准则设计优化目标函数并结合子意图过滤操作,抑制错误子意图产生,以降低反馈样本噪声的影响;通过计算样本增强系数解决样本过少情况下意图识别失败的问题。相比于同样顾及语义的两种规则归纳算法RuleGO(logical Rulesinductive method based on Gene Ontology)和DTHF(Decision Tree learning methodwith Hierarchical Features),本发明方法整体上具有较高的意图识别准确度与噪声容忍度。本发明方法可推广应用于各类地理信息门户,可望提升地理信息共享与发现的服务品质。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图。
图2是本发明实施例的技术流程图。
图3是本发明实施例的检索意图形式化表达模型。
图4是本发明实施例的地理信息资源检索意图维度树。
图5是本发明实施例的候选子意图生成示意图。
图6是本发明实施例的不同识别算法的意图识别准确度及耗时对比。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
现有3600个反馈样本集合,涉及“无意图”、“单意图单维度”、“单意图多维度”、“多意图单维度”与“多意图多维度”5种意图场景,各场景包含30种检索意图;每个检索意图含有24个反馈样本集合,对应于由0、10%、20%、30%比例的反馈噪声与0、20%、40%、60%、80%、100%比例的标签噪声两两组合得到的24种样本噪声情况。其中,反馈噪声级别指反馈样本集合中的误选与漏选样本的比例,标签噪声级别指正反馈样本中某维度含有与意图在该维度取值无关的样本比例。
在获取相关反馈样本之后,现有意图识别方法大多采用预定义类别、词项向量等形式表示用户意图,且在识别过程中较少考虑反馈样本间语义关联与样本噪声,难以准确捕获并描述检索需求。为此,本发明通过设计“意图-子意图-维度分量”形式的意图表达模型,引入领域本体与最小描述长度准则,克服现有意图识别方法中由意图表达不够细致、较少考虑语义与样本噪声导致的识别不准、识别失败等问题,以期提高地理信息资源检索质量。
下面将结合本发明中的附图,对本发明的方法过程进行详细阐述,具体如下:
如图1和图2所示,一种顾及语义的地理信息资源检索意图识别方法,包括以下步骤:
1)构建地理信息资源检索意图维度树,并设计“意图-子意图-维度分量”三层嵌套的意图形式化表达模型,使用领域本体中的概念集合作为维度分量取值来源:
1.1)参考数字空间元数据内容标准(Content Standard for DigitalGeospatial Metadata,CSDGM)等规范,结合常见检索需求,构建层次化的地理信息资源检索意图维度树,如图3所示。该维度树包括“内容”、“空间”、“时间”和“其他”四个基本顶层维度,并使用可选的“特有维度”辅助表达不同类型的地理信息资源可能包含的特殊检索需求,可为意图维度的选取提供参考框架。综合考虑意图维度的代表性、使用频率与示例的简洁性,实施例选取地理信息资源中应用最广泛的地图服务数据,涉及“地理要素”、“空间范围”、“制图方法”与“主题”4个维度。
1.2)本发明设计的检索意图形式化表达模型包含子意图、维度分量及两者的逻辑关系3个部分,如图4所示。具体地,一个检索意图包含若干个子意图,一个子意图包含若干个维度分量,一个维度分量由维度标识符及取值组成,子意图之间为逻辑“或”关系,子意图各维度分量之间为逻辑“与”关系。以反馈样本中蕴含的某个检索意图为例,可根据此意图模型将其形式化表达为“[{地理要素: 动物, 空间范围: 美国, 制图方法: 范围法, 主题: 生物多样性}, {地理要素: 过渡金属, 空间范围: 无, 制图方法: 质地法, 主题:地质}]”,其中“{地理要素: 动物, 空间范围: 美国, 制图方法: 范围法, 主题: 生物多样性}”与“{地理要素: 过渡金属, 空间范围: 无, 制图方法: 质地法, 主题: 地质}”分别为两个子意图,“地理要素: 动物”等键值对为维度分量,此意图对应的自然语言描述为“使用范围法制作且主题为生物多样性的美国范围内关于动物的地图或使用质地法制作且主题为地质的关于过渡金属的地图”;
1.3)在检索意图形式化表达模型中,采用领域本体库中的概念集合作为各维度取值来源。其中“地理要素”维度本体选用地球与环境术语语义网(Semantic Web of Earthand Environmental Terminology, SWEET);“空间范围”维度本体选用GeoNames;“制图方法”维度采用以范围法(Area Method)、质底法(Quality Base Method)、无制图方法(NoMethod,如遥感影像)、点状符号法(Point Symbol Method)、线状符号法(Line SymbolMethod)、分级统计图法(Choloplethic Method)、其他(Other)作为叶子概念,无(None)作为根概念构建的本体;“主题”维度参考国际地球观测组织(Group on EarthObservations,GEO)针对地学领域提出的九大社会受益领域(societal benefit areas,SBAs),采用以农业(Agriculture)、生物多样性(Biodiversity)、气候(Climate)、灾害(Disaster)、生态(Ecosystem)、能源(Energy)、健康(Health)、水(Water)、天气(Weather)和地质(Geology)作为叶子概念,无(None)作为根概念构建的本体;
2)基于相关反馈技术,让用户标记出前若干项检索结果中符合检索需求的部分结果,得到相关反馈样本集合S,其中被标记的检索结果为正反馈样本,记为S + ,被浏览过但未被标记的检索结果为负反馈样本,记为S - ,并依据下式计算样本增强系数α以应对反馈样本不足导致的意图识别失败问题:
其中S + 为正反馈样本集合,L N (x)为Rissanen提出的整数x通用编码长度,其中省略号指从log(x)开始,依次对前一项取对数得到的所有非负项;L N (|S + |+1)为每个正样本对应一个子意图时编码子意图数量所需长度,d为意图维度数量,C i 为第i个维度对应本体的概念集合,L avg (S|∅)为不基于意图编码时反馈样本的平均编码长度,该平均编码长度基于香农无噪声编码理论计算,y为反馈样本的正负性,即S + 与S - 分别表示S中正、负反馈样本集合,|∙|为集合中元素的数量。
3)将意图识别视为组合优化问题,并基于最小描述长度准则,使用反馈样本集合的编码长度L(S, I)作为意图识别优化目标函数:
3.1)对于地理信息资源检索意图I中的第k个子意图I k ,遍历反馈样本集合以获取I k 覆盖的反馈样本子集 k ,假设样本各意图维度均已标注若干标签,标签来源于各维度对应
本体概念集合,则判定子意图覆盖反馈样本的规则为:若反馈样本某维度分量的取值集合
中存在某取值在语义上等价或从属于子意图对应维度分量取值,则认为反馈样本在该维度
符合子意图,若反馈样本在所有维度均符合子意图,则子意图覆盖反馈样本,例如反馈样本
“{地理要素: [河流, 湖泊], 空间范围: [美国], 制图方法: [线状符号法, 范围法],
主题: [水]}”符合子意图“{地理要素: 河流, 空间范围: 美国, 制图方法: 无, 主题:
无}”,不符合子意图“{地理要素: 河流, 空间范围: 加利福尼亚州, 制图方法: 无, 主
题: 水}”;
3.2)去除反馈样本集合中各子意图覆盖样本得到剩余样本集合,记为S r 。
3.4)若反馈样本被多个子意图覆盖,则仅在平均编码长度L avg ( k |I k )最小的反馈
样本子集中予以保留,即将该反馈样本从其它反馈样本子集中删除,得到去重后的反馈样
本子集,记为S k ;
3.5)计算各子意图覆盖的反馈样本子集及剩余样本集合的编码长度,求和得到给定意图后的反馈样本集合编码长度L(S|I),
其中,S k 为子意图I k 覆盖的去重后反馈样本子集,S r 为剩余样本集合,
L avg ( k |I k )代表子意图I k 所含反馈样本的平均编码长度,L avg (S r |I)表示剩余样本
的平均编码长度;y为反馈样本的正负性,即与分别表示S r 中正、负反馈样本集合;|∙|
为集合中元素的数量;
3.6)计算子意图数量的编码长度与各子意图的编码长度,求和得到意图I的编码长度L(I):
其中m为子意图数量,L N (m+1)为编码子意图数量所需长度,L(I k )为第k个子意图I k 的编码长度,由采用均匀编码的I k 各维度取值编码长度和I k 覆盖样本数量编码长度两部分组成;C i 为第i个维度对应领域本体的概念集合;d为意图维度数量;S k 为子意图I k 覆盖的去重后反馈样本子集;
3.7)根据意图I的编码长度L(I)、给定意图后的反馈样本集合编码长度L(S|I)及样本增强系数α计算I对应的反馈样本集合总编码长度L(S, I);
L(S, I) = L(I) + αL(S|I)。
4)采用样本随机合并策略,根据领域本体中概念的语义关系合并随机选取的正反馈样本得到候选子意图:
4.2)对于每个意图维度,从选取的样本中各抽取一个标签组成标签对,将具有最大语义相似度的标签对作为该维度待合并标签对,其中语义相似度Sim根据改进的Lin相似度计算,如下式所示:
其中c 1与c 2为两个概念,LCA(c 1, c 2)为其最近公共祖先概念,IC(∙)为概念的信息量,采用Yuan等人提出的概念信息量计算方法。如图5所示,对于“地理要素”维度,所有可能的标签对为“水库-湖泊”,“大坝-湖泊”,“容量-湖泊”,“大坝-陆地”,“水库-陆地”及“容量-陆地”,将语义相似度最大的“水库-湖泊”作为待合并标签对;
4.3)搜索各维度待合并标签对在领域本体中的最近公共祖先概念,将其作为候选子意图在相应维度的取值。如图5所示,对于“地理要素”维度,“水库”与“湖泊”在SWEET本体中的最近公共祖先为“水体”,故候选子意图在该维度取值为“水体”。
5)基于贪心算法,调用步骤4)搜索使得编码长度减少最多的候选子意图,并合并得到最优候选意图,再基于正样本覆盖比例阈值过滤无效子意图后作为意图识别结果:
5.1)将当前意图I设置为空集,表示无意图,将剩余反馈样本集合S r 设置为反馈样本全集S,并根据步骤3)计算当前意图对应的反馈样本集合总编码长度L(S, I);
5.2)将步骤4)重复指定次数得到多个候选子意图,分别添加各候选子意图至当前
意图I得到候选意图集合candI_set,添加时须判断候选子意图与 QUOTE 中子意图之间
是否存在覆盖情况,若候选子意图覆盖I中某个子意图,则使用候选子意图替换被覆盖子意
图得到候选意图,若候选子意图被某个子意图覆盖,则将I作为候选意图,步骤4)的重复次
数依据经验设定为50次;
5.3)根据步骤3)计算candI_set中各候选意图对应的反馈样本集合总编码长度,将对应总编码长度最小的候选意图记为candI min ;
5.4)比较L(S, candI min )与L(S, I),若L(S, candI min ) 大于L(S, I)则计算
QUOTE 中各子意图覆盖的正样本数与正样本总数的比值,并删除比值小于一定阈值的子
意图得到意图识别结果,若L(S, candI min ) 小于或等于L(S, I)则重复步骤5)。
6)由于本实施例数据不包含多次迭代的反馈样本,故不进行意图迭代更新。在实际意图识别过程中,若用户进入下一次反馈,则将新一轮反馈样本与前次样本合并后再次执行步骤2)至步骤5)获得新的意图识别结果。
7)为了验证意图识别的准确性,采用Jaccard系数及最佳映射平均语义相似度指标(Best Map Average Semantic Similarity, BMASS),计算公式如下:
其中S A 、S B 分别为意图识别结果(即子意图集合)A与真实意图B覆盖的样本集合,f
为A到B的一个单射,F为所有单射的集合,、分别为A、B中的第k 1、k 2个子意图,d为意图
维度数量,表示A、B中第k 1、k 2个子意图在第i个维度上的相似度,按照步骤3)中
的概念语义相似度计算。针对未识别出子意图的情况,为了计算Jaccard系数与BMASS,将意
图各维度取值设置为本体根节点(即无意图)。
本发明方法顾及地理信息资源的语义信息并考虑反馈样本中的噪声,与RuleGO及DTHF两种规则归纳算法相比,在整体上具有较高的意图识别准确度与噪声容忍度;如图6(a)-(c)所示,本发明算法在大多数场景下具有更高的BMASS值;在标签噪声与反馈噪声容忍度方面,本发明算法最优,RuleGO次之,DTHF最差,且反馈噪声对算法的影响大于标签噪声;就反馈噪声而言,其对基准算法RuleGO与DTHF识别准确性的影响大于本发明算法;如图6(d)所示,三种算法的Jaccard系数波动程度相差不大,但本发明算法的中位数更高,说明本文算法的意图识别结果与预定义意图在样本覆盖方面更为一致;本发明算法的平均求解耗时比RuleGO、DTHF更长且稳定性较差(图6(e)),但多数场景下小于1秒,可支持交互式检索中的实时意图识别。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种顾及语义的地理信息资源检索意图识别方法,其特征在于,包括以下步骤:
1)构建地理信息资源检索意图维度树,并设计“意图-子意图-维度分量”三层嵌套的意图形式化表达模型,使用领域本体中的概念集合作为维度分量取值来源;
2)基于相关反馈技术,让用户标记出前若干项检索结果中符合检索需求的部分结果,得到反馈样本集合S,并计算样本增强系数α;
步骤2)中依据下式计算样本增强系数α,以应对反馈样本不足导致的意图识别失败问题;
式中,S + 为正反馈样本集合;L N (x)为Rissanen提出的整数x通用编码长度,其中省略号指从log(x)开始,依次对前一项取对数得到的所有非负项;L N (|S + |+1)为每个正样本对应一个子意图时编码子意图数量所需长度;d为意图维度数量;C i 为第i个维度对应本体的概念集合;L avg (S|∅)为不基于意图编码时反馈样本的平均编码长度,该平均编码长度基于香农无噪声编码理论计算;y为反馈样本的正负性,即S + 与S - 分别表示S中正、负反馈样本集合;|∙|为集合中元素的数量;3)将意图识别视为组合优化问题,并基于最小描述长度准则,并将反馈样本集合总编码长度作为意图识别优化目标函数;
4)采用样本随机合并策略,根据领域本体中概念的语义关系随机选取两个正反馈样本合并得到一个候选子意图,所述候选子意图每个维度分量取值为两个正反馈样本对应维度中具有最大语义相似度的标签对的最低公共祖先概念;
5)基于贪心算法,调用步骤4)搜索使得编码长度减少最多的候选子意图,并合并得到最优候选意图,再基于正样本覆盖比例阈值过滤无效子意图后作为意图识别结果;
步骤5)的具体实现方式如下;
步骤51,将当前意图I设置为空集,表示无意图,将剩余反馈样本集合S r 设置为反馈样本全集S,并根据步骤3计算当前意图对应的反馈样本集合总编码长度L(S, I);
步骤52,将步骤4)重复指定次数得到多个候选子意图,分别添加各候选子意图至当前意图I得到候选意图集合candI_set;
添加时须判断候选子意图与I中子意图之间是否存在覆盖情况,若候选子意图覆盖I中某个子意图,则使用候选子意图替换被覆盖子意图得到候选意图,若候选子意图被某个子意图覆盖,则将I作为候选意图;
步骤53,根据步骤3)计算候选意图集合candI_set中各候选意图对应的反馈样本集合总编码长度,将对应总编码长度最小的候选意图记为candI min ;
步骤54,比较L(S, candI min )与L(S, I)的大小,若L(S, candI min ) 大于L(S, I),则计算I中各子意图覆盖的正样本数与正样本总数的比值,并删除比值小于设定阈值的子意图得到意图识别结果,若L(S, candI min ) 小于或等于L(S, I)则重复执行步骤5);
6)若用户进入下一次反馈,则基于新一轮的反馈样本集合重复步骤2)至步骤5),更新意图识别结果,否则停止意图迭代更新。
2.根据权利要求1所述的一种顾及语义的地理信息资源检索意图识别方法,其特征在于:步骤1)中构建的层次化的地理信息资源检索意图维度树包括“内容”、“空间”、“时间”和“其他”四个基本顶层维度,并使用可选的“特有维度”辅助表达不同类型的地理信息资源包含的特殊检索需求,为意图维度的选取提供参考框架;
“意图-子意图-维度分量”形式的意图表示模型包括子意图、维度分量及两者的逻辑关系,一个意图包含若干个子意图,一个子意图包含若干个维度分量,一个维度分量由维度标识符及取值组成,子意图之间为逻辑“或”关系,子意图各维度分量之间为逻辑“与”关系。
3.根据权利要求1所述的一种顾及语义的地理信息资源检索意图识别方法,其特征在于:所述步骤3)计算当前意图对应的反馈样本集合总编码长度L(S, I)的计算方式如下:
S31、对于地理信息资源检索意图I中的第k个子意图I k ,遍历反馈样本集合以获取I k 覆
盖的反馈样本子集 k ,假设样本各意图维度均已标注若干标签,标签来源于各维度对应本
体概念集合,则判定子意图覆盖反馈样本的规则为:若反馈样本某维度分量的取值集合中
存在某取值在语义上等价或从属于子意图对应维度分量取值,则认为反馈样本在该维度符
合子意图,若反馈样本在所有维度均符合子意图,则子意图覆盖反馈样本;
S32、去除反馈样本集合中各子意图覆盖样本得到剩余样本集合,记为S r ;
S34、若反馈样本被多个子意图覆盖,则仅在平均编码长度L avg ( k |I k )最小的反馈样本
子集中予以保留,即将该反馈样本从其它反馈样本子集中删除,得到去重后的反馈样本子
集,记为S k ;
S35、计算各子意图覆盖的反馈样本子集及剩余样本集合的编码长度,求和得到给定意图后的反馈样本集合编码长度L(S|I),
式中,S k 为子意图I k 覆盖的去重后反馈样本子集;S r 为剩余样本集合;
L avg ( k |I k )代表子意图I k 所含反馈样本的平均编码长度;L avg (S r |I)表示剩余样本的平
均编码长度;y为反馈样本的正负性,即与分别表示S r 中正、负反馈样本集合;|∙|为集
合中元素的数量;
S36、计算子意图数量的编码长度与各子意图的编码长度,求和得到意图I的编码长度L(I):
式中,m为子意图数量;L N (m+1)为编码子意图数量所需长度;L(I k )为第k个子意图I k 的编码长度,由采用均匀编码的I k 各维度取值编码长度和I k 覆盖样本数量编码长度两部分组成;C i 为第i个维度对应领域本体的概念集合;d为意图维度数量;S k 为子意图I k 覆盖的去重后反馈样本子集;
S37、根据当前意图编码长度L(I)、给定当前意图后反馈样本集合编码长度L(S|I)及样本增强系数α,计算当前意图对应的反馈样本集合总编码长度L(S, I);
L(S, I) = L(I) + αL(S|I)。
4.根据权利要求3所述的一种顾及语义的地理信息资源检索意图识别方法,其特征在于:步骤4)中候选子意图生成的具体方式如下:
S42、对于每个意图维度,从选取的样本中各抽取一个标签组成标签对,将具有最大语义相似度的标签对作为该维度待合并标签对,其中语义相似度Sim根据改进的Lin相似度计算,如下式所示:
其中c 1与c 2为两个概念,LCA(c 1, c 2)为其最近公共祖先概念,IC(∙)为概念的信息量,采用Yuan提出的概念信息量度量方法计算;
S43、搜索每个维度的待合并值对在领域本体中的最近公共祖先概念,将其作为候选子意图在该维度的取值。
6.根据权利要求1所述的一种顾及语义的地理信息资源检索意图识别方法,其特征在于:所述步骤6)中意图迭代更新策略为:以意图识别结果为查询条件得到新的检索结果,利用相关反馈技术获取当前反馈样本集合,将前次反馈样本集合与当前反馈样本集合合并去重作为新的反馈样本集合,重新执行步骤2)至步骤5)得到更新后的意图识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210280298.0A CN114385933B (zh) | 2022-03-22 | 2022-03-22 | 一种顾及语义的地理信息资源检索意图识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210280298.0A CN114385933B (zh) | 2022-03-22 | 2022-03-22 | 一种顾及语义的地理信息资源检索意图识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114385933A CN114385933A (zh) | 2022-04-22 |
CN114385933B true CN114385933B (zh) | 2022-06-07 |
Family
ID=81204917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210280298.0A Active CN114385933B (zh) | 2022-03-22 | 2022-03-22 | 一种顾及语义的地理信息资源检索意图识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114385933B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115422317B (zh) * | 2022-11-04 | 2023-03-24 | 武汉大学 | 一种语义标签约束的地理信息检索意图形式化表达方法 |
CN117009614B (zh) * | 2023-07-20 | 2024-01-09 | 武汉大学 | 一种地理信息资源检索意图检测方法及计算机可读介质 |
CN117194740B (zh) * | 2023-11-08 | 2024-01-30 | 武汉大学 | 基于引导式迭代反馈的地理信息检索意图更新方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069709A (zh) * | 2019-04-10 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机可读介质及电子设备 |
CN110309400A (zh) * | 2018-02-07 | 2019-10-08 | 鼎复数据科技(北京)有限公司 | 一种智能理解用户查询意图的方法及系统 |
CN111143561A (zh) * | 2019-12-26 | 2020-05-12 | 北京百度网讯科技有限公司 | 意图识别模型训练方法、装置及电子设备 |
CN111310008A (zh) * | 2020-03-20 | 2020-06-19 | 北京三快在线科技有限公司 | 搜索意图识别方法、装置、电子设备和存储介质 |
CN111538894A (zh) * | 2020-06-19 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 查询反馈方法、装置、计算机设备及存储介质 |
CN112905893A (zh) * | 2021-03-22 | 2021-06-04 | 北京百度网讯科技有限公司 | 搜索意图识别模型的训练方法、搜索意图识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210064658A1 (en) * | 2019-09-04 | 2021-03-04 | International Business Machines Corporation | Geofencing queries based on query intent and result semantics |
-
2022
- 2022-03-22 CN CN202210280298.0A patent/CN114385933B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309400A (zh) * | 2018-02-07 | 2019-10-08 | 鼎复数据科技(北京)有限公司 | 一种智能理解用户查询意图的方法及系统 |
CN110069709A (zh) * | 2019-04-10 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机可读介质及电子设备 |
CN111143561A (zh) * | 2019-12-26 | 2020-05-12 | 北京百度网讯科技有限公司 | 意图识别模型训练方法、装置及电子设备 |
CN111310008A (zh) * | 2020-03-20 | 2020-06-19 | 北京三快在线科技有限公司 | 搜索意图识别方法、装置、电子设备和存储介质 |
CN111538894A (zh) * | 2020-06-19 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 查询反馈方法、装置、计算机设备及存储介质 |
CN112905893A (zh) * | 2021-03-22 | 2021-06-04 | 北京百度网讯科技有限公司 | 搜索意图识别模型的训练方法、搜索意图识别方法及装置 |
Non-Patent Citations (4)
Title |
---|
Dan Yang.et.l.Geo and temporal intent discovery of web search.《2011 IEEE International Conference on Computer Science and Automation Engineering 》.2011, * |
张晓娟.查询意图自动分类与分析.《中国博士学位论文全文数据库 信息科技辑》.2015, * |
桂思思等.基于查询表达式特征的时态意图识别研究.《数据分析与知识发现》.2019, * |
高景斌.基于查询子意图识别的检索结果多样化方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2014, * |
Also Published As
Publication number | Publication date |
---|---|
CN114385933A (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114385933B (zh) | 一种顾及语义的地理信息资源检索意图识别方法 | |
WO2021147726A1 (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN109189959B (zh) | 一种构建图像数据库的方法及装置 | |
CN103718190B (zh) | 增量图像聚类 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN112417289B (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
CN113569057B (zh) | 一种面向本体标签知识图谱的样例查询方法 | |
CN112685642A (zh) | 一种标签推荐方法、装置、电子设备及存储介质 | |
Huang et al. | Location prediction for tweets | |
Wang et al. | Deep enhanced weakly-supervised hashing with iterative tag refinement | |
CN108647295B (zh) | 一种基于深度协同哈希的图片标注方法 | |
CN112784008B (zh) | 案件相似度确定方法及装置、存储介质、终端 | |
CN117312680A (zh) | 一种基于用户-实体子图对比学习的资源推荐方法 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN116703682A (zh) | 一种基于深度学习的政务数据平台 | |
CN109933787B (zh) | 文本关键信息的提取方法、装置及介质 | |
CN112632406A (zh) | 查询方法、装置、电子设备及存储介质 | |
CN113721889B (zh) | 需求追踪关系构建方法、装置及计算机可读存储介质 | |
CN115965085A (zh) | 一种基于知识图谱技术的船舶静态属性推理方法及系统 | |
CN115577147A (zh) | 可视化情报图谱检索方法、装置、电子设备及存储介质 | |
CN114756617A (zh) | 一种工程档案结构化数据提取方法、系统、设备和存介质 | |
CN112416754B (zh) | 一种模型评测方法、终端、系统及存储介质 | |
CN112507912A (zh) | 一种识别违规图片的方法及装置 | |
CN117251685B (zh) | 一种基于知识图谱的标准化政务数据构建方法和装置 | |
CN111476037B (zh) | 文本处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |