CN117194740B - 基于引导式迭代反馈的地理信息检索意图更新方法和系统 - Google Patents
基于引导式迭代反馈的地理信息检索意图更新方法和系统 Download PDFInfo
- Publication number
- CN117194740B CN117194740B CN202311473576.5A CN202311473576A CN117194740B CN 117194740 B CN117194740 B CN 117194740B CN 202311473576 A CN202311473576 A CN 202311473576A CN 117194740 B CN117194740 B CN 117194740B
- Authority
- CN
- China
- Prior art keywords
- intention
- samples
- sample
- sub
- round
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000006835 compression Effects 0.000 claims abstract description 23
- 238000007906 compression Methods 0.000 claims abstract description 23
- 230000009191 jumping Effects 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 230000008859 change Effects 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 9
- 238000005065 mining Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了基于引导式迭代反馈的地理信息检索意图更新方法和系统,包括:1)建立意图置信度的评价机制以衡量当前意图的可靠程度;2)建立候选样本与潜在意图之间的语义相似度与距离计算方案;3)结合意图置信度构建候选样本选择策略,筛选高价值样本供用户下轮相关反馈;4)通过迭代反馈中样本总编码长度压缩率与子意图覆盖率的变化,检测上轮意图的偏移情况;5)结合本轮反馈样本增量更新上轮候选子意图,基于最小描述长度准则搜索编码长度最短的最优意图;6)计算意图置信度,若满足要求,终止迭代,输出最优意图;否则,跳转至步骤2)进行下轮迭代。本发明可以更准确地理解用户检索需求,提升地理信息资源共享与发现的服务品质。
Description
技术领域
本发明属于信息检索领域,具体涉及基于引导式迭代反馈的地理信息检索意图更新方法和系统。
背景技术
检索意图的精准识别对地理信息资源的高效发现与充分利用具有重要的意义。随着数据采集技术的发展和网络共享设施的完善,全球开放共享的地理信息资源不断涌现,为地学研究与应用提供重要的数据支持,也带来了“资源海量,但一图难求”的检索困境。现有的地理信息资源检索方法主要是基于元数据的文本查询和图像内容的相似性计算,缺乏对用户检索需求的主动理解,导致检索结果难以满足用户要求。信息检索领域中基于相关反馈的意图识别与更新方法可为地理信息检索提供借鉴,主要分为预定义类别和词项向量两种。基于预定义类别的意图识别方法在建立意图分类体系的基础上,利用决策树、支持向量机或深度学习模型识别意图,但这种方法仅能表达检索意图的大致范围,无法准确刻画用户的具体需求。基于词项向量的意图识别方法,对相关反馈数据中的关键词进行分词及权重计算,将高频的兴趣词作为查询条件重新检索,但该方法未考虑词项的语义及词项间的逻辑关系,难以全面准确定位用户的兴趣资源。此外,地理信息资源的检索需求包含复杂的时空约束条件,涉及纷繁庞杂的地学术语及语义关系,同时,首轮相关反馈样本数量较少、标注样本有偏等情况都可能导致面向地理信息资源检索的单轮意图识别不准确,基于意图检索的结果无法满足用户需求,限制了意图识别方法在地理信息资源检索中的应用。
发明内容
本发明针对现有技术的不足,在单轮意图识别的基础上,提供一种基于引导式迭代反馈的地理信息资源检索意图更新方法,通过候选样本的价值度量构建引导式待反馈样本集合供用户下轮标注,并结合历史候选子意图扩展意图搜索空间,实现复杂交互场景下检索意图的更新与精化。
为了达到上述目的,本发明提供的技术方案是一种基于引导式迭代反馈的地理信息检索意图更新方法,包括以下步骤:
1)计算当前意图及子意图的置信度;
2)将候选样本的价值定义为用于表征当前意图的代表性与不确定性,结合样本各维度对应的地理本体,计算每个候选样本与当前子意图之间的语义相似度与距离;
3)结合当前意图的置信度,在意图覆盖与未覆盖的样本集合中分别选择一定数量的代表性与不确定性高的样本,并依据相关反馈的先后顺序选择一定数量的历史冲突样本,构成引导式待反馈样本集合供用户下轮标注;
4)在用户进行迭代反馈后,计算上轮意图识别结果对本轮反馈的样本总编码长度压缩率和子意图覆盖率,并依据意图偏移准则检测上轮意图的偏移情况,若意图未偏移,直接使用上轮意图识别的结果作为本轮反馈的意图输出,跳转至步骤6);否则,执行步骤5);
5)结合地理语义对本轮反馈正样本的概念进行语义扩展,采用Apriori算法挖掘本轮反馈频繁的候选子意图,并基于此增量更新上轮候选子意图,在新的意图搜索空间中,基于最小描述长度准则的贪心搜索策略,寻找编码长度最短的最优子意图组合,作为本轮意图更新的结果;
6)计算本轮识别意图的置信度,若置信度高于第一阈值且相邻两次置信度变化小于第二阈值,则终止迭代,输出最优意图;否则,跳转至步骤2)进行下轮迭代。
进一步的,步骤1)中意图及子意图的置信度计算方法为:
子意图的置信度由子意图的相容性与完备性两部分组成:第个子意图/>的相容性/>定义为在本轮正负反馈的所有样本中,子意图覆盖正样本数量占其覆盖所有样本的比例,具体定义如下:
其中,为第/>个子意图/>覆盖的正负样本数量,/>为第/>个子意图/>覆盖的正样本数量;
第个子意图/>的完备性/>定义为在本轮正负反馈的所有样本中,子意图覆盖正样本的数量占所有正样本的比例,具体定义如下:
其中,为第/>个子意图/>覆盖的正样本数量,/>为本轮反馈的正样本数量;
子意图置信度是指算法识别的子意图是真实子意图的可靠程度,第个子意图/>的置信度/>定义为其相容性与完备性的调和平均数,具体定义如下:
意图的置信度由意图的相容性与完备性两部分组成:意图的相容性定义为在本轮正负反馈的所有样本中,意图覆盖正样本数量占覆盖所有样本的比例,具体定义如下:
其中,表示意图覆盖的正样本数量,可分解成各个子意图覆盖正样本的并集大小,/>表示意图覆盖的样本数量,可分解成各个子意图覆盖样本的并集大小;
意图的完备性/>定义为在本轮正负反馈的所有样本中,意图覆盖正样本的数量占所有正样本的比例,具体定义如下:
意图置信度是指算法识别的意图是真实意图的可靠程度,意图的置信度定义为意图相容性与完备性的调和平均数,具体定义如下:
。
进一步的,步骤2)中候选样本的价值分为用于表征当前意图的代表性与不确定性两部分,计算方式如下:
候选样本的代表性使用样本与当前子意图之间的语义相似度进行衡量,具体定义如下:
其中,S表示样本,表示意图的所有维度集合,/>表示/>中的某个维度,/>表示第/>个子意图在第/>个维度上的单个取值,/>表示样本在第/>个维度上的概念集合;样本与子意图在某个维度上的语义相似度/>定义为多个样本概念与单个意图取值的平均相似度,具体定义如下:
其中,表示样本在该维度上的概念集合,/>表示/>中的某个概念,/>表示样本在第个维度上的第/>个概念,/>表示/>和/>之间的相似度;
步骤2)所述候选样本的不确定性使用样本与当前子意图之间的概念距离进行衡量,具体定义如下:
其中,表示意图所有的维度集合,/>表示/>中的某个维度,/>表示第/>个子意图在第/>个维度上的单个取值。/>表示样本在第/>个维度上的概念集合。由于多标签样本拥有更加丰富的语义信息,有助于扩展用户意图的表达范围,因此,样本与子意图在某个维度上的语义距离/>定义为多个样本概念与单个意图取值的最小距离,具体定义如下:
其中,表示样本在该维度上的概念集合,/>表示/>中的某个概念,/>表示样本在第个维度上的第/>个概念,在本体中,两个概念之间的距离定义为由概念/>到概念/>的最短路径上的节点数减1。
进一步的,步骤3)中构建引导式待反馈样本集合,具体如下:
S31、给定每轮引导式待反馈的样本数量,计算意图置信度/>和每个子意图的置信度/>,并根据子意图对样本的覆盖规则,得到历史冲突样本集合/>;
S32、依据中样本加入的时间顺序,从后往前选取/>个样本加入本轮引导式待反馈样本集合/>中,若历史前序反馈的冲突样本数量不足,则将剩余的待选数量累加到意图代表性与不确定性的待选样本数量上;
S33、计算意图代表性与不确定性的待选样本数量以及每个子意图待选的代表性与不确定性样本数量/>,保证每个子意图对应的候选样本数目相同;
S34、在子意图覆盖的样本集合中,计算每个样本与子意图的相似度,并从高到低排序,选择前个样本作为子意图的代表性样本加入本轮引导式待反馈样本集合/>中,若候选的子意图代表性样本数量不足,则将剩余的待选数量累加到子意图不确定性待选样本数量上;
S35、在子意图未覆盖的样本集合中,计算每个样本与子意图的语义距离,并从近到远排序,选择前个样本作为子意图的不确定性样本,加入本轮引导式待反馈样本集合/>中;
S36、重复步骤S34,S35,筛选表征每一个子意图代表性与不确定性的候选样本,得到引导式待反馈样本集合,并将其反馈给用户进行下轮标注。
进一步的,所述子意图对样本的覆盖规则,定义为:若样本在每个维度上均存在语义从属或等价于子意图/>对应维度的概念,则子意图/>覆盖样本/>;
所述历史冲突样本集合是正负性与当前意图不相容的反馈样本构成的集合,其定义为:在每轮相关反馈中,当前意图未覆盖的正样本和当前意图覆盖的负样本。
进一步的,步骤4)中意图偏移准则如下:
判断准则S41:若上轮意图对本轮反馈的样本总编码长度压缩率小于上轮压缩率,则认为意图发生变化,具体定义如下:
其中,rate表示压缩率,和/>分别表示基于意图编码和直接编码的样本总编码长度,/>为截止当前的反馈轮数;
判断准则S42:若存在任一子意图,使得上轮子意图对本轮正样本的覆盖率小于上轮正样本的覆盖率,或对本轮负样本的覆盖率大于上轮负样本的覆盖率,则认为意图发生变化,具体定义如下:
其中,和/>分别表示第/>轮和第/>轮迭代的样本总编码长度压缩率,表示第/>轮迭代意图/>的第/>个子意图,/>和/>分别表示/>在第/>轮迭代反馈中的正样本覆盖率和负样本覆盖率,/>和/>分别表示/>在第/>轮迭代反馈中的正样本覆盖率和负样本覆盖率;
所述迭代反馈中子意图的正样本覆盖率,定义为:子意图覆盖的正样本数量与本轮反馈的正样本总数量之比,子意图的负样本覆盖率,定义为:子意图覆盖的负样本数量与本轮反馈的负样本总数量之比;
意图偏移的判断标准具体如下:
计算上轮意图对本轮反馈的样本总编码长度压缩率以及上轮子意图对本轮反馈的正负样本覆盖率,若满足意图偏移判断准则S41或S42,则认为当前意图发生了变化,跳转至步骤5);否则,直接使用上轮意图识别的结果作为本轮反馈的意图输出,跳至步骤6)。
进一步的,步骤5)中结合地理语义对本轮反馈正样本的概念进行语义扩展,具体如下:
S51、对于某正样本的第/>个维度/>的第/>个标签/>,寻找本体/>中/>对应概念/>的位置,搜索通过子类关系指向/>的所有上位概念/>,生成包含原始概念/>与其所有的上位概念/>的语义扩展概念集合/>;
S52、对正样本每个维度的每个标签重复步骤S51,得到该正样本各个维度的语义扩展概念集合;
S53、对正样本集合中的每个正样本/>重复步骤S52,合并各维度的语义扩展概念集合并去重,得到正样本的维度分量集合/>。
进一步的,步骤5)采用Apriori算法挖掘本轮反馈的频繁候选子意图,具体如下:
S54、将每个维度分量集合中的单个标签作为频繁项集挖掘中的单个项,计算所有单个项的支持度;
所述每个项的支持度定义为含有该项的正样本数量与本轮反馈的正样本总数量之比;
S55、判断所有单个项的支持度是否大于等于最小支持度阈值,若是则保留,若不是则剔除,得到频繁1项集;
S56、以频繁n-1项集为基础,n>1,连接生成候选n项集,每个项集是由n个标签组成的集合;
S57、依据意图形式化表达中维度取值的数量约束,剔除候选n项集中某维度存在多个取值的项集;
S58、计算候选n项集中每个项的支持度,若项支持度大于等于最小支持度阈值,则保留;否则,剔除该项,得到频繁n项集;
S59、若频繁n项集为空或只有一项,输出所有频繁项集,迭代结束;否则,令n=n+1,跳转至步骤S56;
S510、遍历所有的频繁项集,对于项数少于意图维度数的频繁项,使用维度本体的根节点补充频繁项中缺少的维度取值,生成本轮反馈频繁的候选子意图集合。
进一步的,步骤5)结合本轮候选子意图增量更新上轮候选子意图,具体如下:
S511、提取本轮候选子意图和上轮候选子意图中的相同项,加入更新后的候选子意图集合中;
S512、对于每个出现在本轮候选子意图集合,但未出现在上轮候选子意图集合中的元素,计算该候选子意图在所有反馈样本中的支持度,若该候选子意图支持度大于等于支持度阈值,则将该候选子意图加入到更新后的候选子意图集合中;
S513、对于每个出现在上轮候选子意图集合,但未出现在本轮候选子意图集合中的元素,计算该候选子意图在所有反馈样本中的支持度,若该候选子意图支持度大于等于支持度阈值,则将该候选子意图加入到更新后的候选子意图集合中;
在新的意图搜索空间中,使用基于最小描述长度准则驱动的贪心搜索策略,寻找编码长度最短的最优子意图组合,作为本轮意图的更新结果。
本发明还提供基于引导式迭代反馈的地理信息检索意图更新系统,包括以下模块:
置信度计算模块,用于计算当前意图及子意图的置信度;
相似度与距离计算模块,用于表征当前意图的代表性与不确定性,结合样本各维度对应的地理本体,计算每个候选样本与当前子意图之间的语义相似度与距离;
引导反馈模块,用于结合当前意图的置信度,在样本库中筛选代表性与不确定性高的样本,并选择一定数量的历史冲突样本,构成引导式待反馈样本集合供用户下轮标注;
意图偏移判断模块,用于在用户进行迭代反馈后,计算上轮意图识别结果对本轮反馈的样本总编码长度压缩率和子意图覆盖率,并依据意图偏移准则检测上轮意图的偏移情况,若意图未偏移,直接使用上轮意图识别的结果作为本轮反馈的意图输出,跳转至最优意图输出模块;否则,执行意图更新模块;
意图更新模块,用于结合本轮反馈的正负样本增量更新上轮候选子意图,并在新的意图搜索空间中,基于最小描述长度准则的贪心搜索策略,寻找编码长度最短的最优子意图组合,作为本轮意图更新的结果;
最优意图输出模块,用于计算本轮识别意图的置信度,若置信度高于第一阈值且相邻两次置信度变化小于第二阈值,则终止迭代,输出最优意图;否则,跳转至相似度与距离计算模块进行下轮迭代。
与现有技术相比,本发明具有如下优点和有益效果:
本发明提出一种基于引导式迭代反馈的地理信息检索意图更新方法,有效解决了传统检索方法难以准确理解用户需求而导致的“意图鸿沟”问题。具体而言,本发明使用代表性与不确定性指标衡量候选样本对意图表达的价值,并顾及地图语义构建引导式待反馈样本集合,有助于在迭代反馈中消除歧义与模糊意图,为迭代检索研究中价值样本的筛选提供了新的思路;融合历史反馈信息的意图迭代更新方法,克服单轮反馈噪声较多导致识别意图有偏的问题,提升意图识别的准确性;结合本轮反馈样本增量更新上轮候选子意图,避免对历史样本数据的重复挖掘,提高意图更新的效率。本研究方法可拓展应用于各类地理信息门户,降低用户检索需求的表达门槛,更加准确、智能地识别终端用户的真实检索意图,提升地理信息资源共享与发现的服务品质。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明的地理信息资源检索意图更新流程图;
图2是本发明的当前意图及子意图置信度计算实例图
图3是本发明的候选样本代表性与不确定性示意图;
图4是本发明的引导式待反馈样本集合构建过程图;
图5是本发明的意图偏移判断准则示意图;
图6是本发明的正样本概念语义扩展示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于引导式迭代反馈的地理信息资源检索意图更新方法,包括:
1)综合反馈样本与当前意图的相容性与完备性,建立意图置信度的评价机制,计算当前意图及子意图的置信度;
步骤1)中意图及子意图的置信度计算方法,具体如下:
子意图的置信度由子意图的相容性与完备性两部分组成。第个子意图/>的相容性/>定义为在本轮正负反馈的所有样本中,子意图/>覆盖正样本数量占其覆盖所有样本数量的比例,具体定义如下:
其中,为第/>个子意图/>覆盖的正负样本数量,/>为第/>个子意图/>覆盖的正样本数量。
第个子意图/>的完备性/>定义为在本轮正负反馈的所有样本中,子意图/>覆盖正样本数量占所有正样本数量的比例,具体定义如下:
其中,为第/>个子意图/>覆盖的正样本数量,/>为本轮反馈的正样本数量。
子意图置信度是指算法识别的子意图是真实子意图的可靠程度,第/>个子意图/>的置信度/>定义为其相容性与完备性的调和平均数,具体定义如下:
意图的置信度由意图的相容性与完备性两部分组成。意图的相容性定义为在本轮正负反馈的所有样本中,意图/>覆盖正样本数量占其覆盖所有样本数量的比例,具体定义如下:
其中,表示意图I覆盖的正样本数量,可分解成各个子意图覆盖正样本的并集大小,/>表示意图I覆盖的样本数量,可分解成各个子意图覆盖样本的并集大小。
意图的完备性/>定义为在本轮正负反馈的所有样本中,意图/>覆盖正样本数量占所有正样本数量的比例,具体定义如下:
意图置信度是指算法识别的意图是真实意图的可靠程度,意图的置信度定义为其相容性与完备性的调和平均数,具体定义如下:
实例展示了轮反馈的意图识别结果,分别计算子意图/>和意图/>的置信度,如图2所示。以子意图/>为例,/>覆盖了本轮反馈的5个正样本和1个负样本,故/>的相容性/>。/>覆盖的正样本数目占本轮反馈正样本数目的一半,故/>的完备性/>。子意图置信度定义为其相容性和完备性的调和平均数,故的置信度/>。
2)将候选样本的价值定义为用于表征当前意图的代表性与不确定性,结合样本各维度对应的地理本体,计算每个候选样本与当前子意图之间的语义相似度与距离;
步骤2)所述候选样本的价值分为用于表征当前意图的代表性与不确定性两部分,具体计算方式如下:
候选样本的代表性使用样本与当前子意图之间的语义相似度进行衡量,具体定义如下:
其中,S表示样本,表示意图的所有维度集合,/>表示/>中的某个维度。/>表示第/>个子意图在第/>个维度上的单个取值。/>表示样本在第/>个维度上的概念集合。由于样本在每个维度上可能存在多个概念,单标签样本对用户目标意图具有更清晰准确的表达能力,因此,样本与子意图在某个维度上的语义相似度/>定义为多个样本概念与单个意图取值的平均相似度,具体定义如下:
其中,表示样本在该维度上的概念集合,/>表示/>中的某个概念,/>表示样本在第个维度上的第/>个概念。本发明使用Lin相似度计算本体概念的相似度,使用Yuan提出的概念信息量度量方法计算本体概念的信息量,具体定义如下:
其中,与/>为本体概念,/>表示概念间的相似度,/>为其最近公共祖先,/>为概念的信息量,概念/>在本体结构中的深度越大,从属(下位)概念越多,叶子概念越少,其信息量越大。信息量具体定义如下:
其中,为概念/>在本体中的深度,/>为本体中所有概念的最大深度,/>为概念/>的叶子节点数目,/>为本体所有概念中拥有最多的叶子节点数目,/>为概念/>的下位概念数目,/>为本体概念中拥有最多的下位概念数目。
步骤2)所述候选样本的不确定性使用样本与当前子意图之间的概念距离进行衡量,具体定义如下:
其中,表示意图所有的维度集合,/>表示/>中的某个维度。/>表示第/>个子意图在第/>个维度上的单个取值。/>表示样本在第/>个维度上的概念集合。由于多标签样本拥有更加丰富的语义信息,有助于扩展用户意图的表达范围,因此,样本与子意图在某个维度上的语义距离/>定义为多个样本概念与单个意图取值的最小距离,具体定义如下:
其中,表示样本在该维度上的概念集合,/>表示/>中的某个概念,/>表示样本在第个维度上的第/>个概念。在本体中,两个概念之间的距离定义为由概念/>到概念/>的最短路径上的节点数减1。
实例选取地理要素、空间范围、制图方法、主题四个维度及其对应的地理本体,对候选样本用于表征用户意图/>的代表性和不确定性进行简要介绍,如图3所示。
样本与意图/>在各个维度上的概念相同,能直观地反映意图/>的检索需求,对意图/>的代表性最强(/>)。样本/>在地理要素与空间范围维度上的概念皆是意图/>对应维度取值的从属概念,对用户理解而言不够直观,在相关反馈时可能会出现漏选与误选的现象,导致算法识别到更加具体的意图中,对意图/>的代表性次之(/>)。样本/>在地理要素与制图方法维度存在不相关概念干扰,会影响用户对样本正负性的判断,同时,样本/>的不相关概念会引入标签噪声,在意图识别的过程中可能会产生错误的子意图,降低意图识别算法的精准度,对意图/>的代表性最低(/>)。因此,这三个样本对意图/>的代表性强弱为/>。
样本、/>均不被意图/>覆盖,样本/>在地理要素维度上的概念是意图/>对应维度取值的抽象概念(上位概念),其余维度概念相同,因此,样本/>可能是与意图/>语义近似的模糊意图对应的样本,与意图/>的语义距离最近(/>),对意图/>的不确定性最高。而样本/>在地理要素、空间范围、制图方法三个维度上均存在较为明显差异,与意图/>并没有太多的语义关联(/>),对意图/>的不确定性最低。因此,这两个样本对意图/>的不确定性强弱为/>。
3)结合当前意图的置信度,在意图覆盖与未覆盖的样本集合中分别选择一定数量的代表性与不确定性高的样本,并依据相关反馈的先后顺序选择一定数量的历史冲突样本,构成引导式待反馈样本集合供用户下轮标注;
步骤3)中构建引导式待反馈样本集合的过程,如图4所示,具体如下:
S31、给定每轮引导式待反馈的样本数量,计算意图置信度/>和每个子意图的置信度/>,并根据子意图对样本的覆盖规则,得到历史冲突样本集合/>。实例选取引导式待反馈的样本数量/>,意图及子意图的置信度如图2所示;
所述子意图对样本的覆盖规则,定义为:若样本在每个维度上均存在语义从属或等价于子意图/>对应维度的概念,则子意图/>覆盖样本/>。
所述历史冲突样本集合是正负性与当前意图不相容的反馈样本构成的集合,其定义为:在每轮相关反馈中,当前意图未覆盖的正样本和当前意图覆盖的负样本。
S32、依据中样本加入的时间顺序,从后往前选取/>个样本加入本轮引导式待反馈样本集合/>中,若历史前序反馈的冲突样本数量不足,则将剩余的待选数量累加到意图代表性与不确定性的待选样本数量上。实例/>,依据反馈的先后顺序,选择样本/>加入本轮引导式待反馈样本集合中;
S33、计算意图代表性与不确定性的待选样本数量以及每个子意图待选的代表性与不确定性样本数量/>,保证每个子意图对应的候选样本数目大致相同。实例中/>;
S34、在子意图覆盖的样本集合中,计算每个样本与子意图的相似度,并从高到低排序,选择前/>个样本作为子意图的代表性样本加入本轮引导式待反馈样本集合/>中。若候选的子意图代表性样本数量不足,则将剩余的待选数量累加到子意图不确定性待选样本数量上。以子意图/>为例,/>,在/>覆盖的样本集合中,选择代表性高的样本/>加入本轮引导式待反馈样本集合中;
S35、在子意图未覆盖的样本集合中,计算每个样本与子意图的语义距离,并从近到远排序,选择前/>个样本作为子意图的不确定性样本,加入本轮引导式待反馈样本集合/>中。以子意图/>为例,/>,在/>未覆盖的样本集合中,选择不确定性高的样本/>加入本轮引导式待反馈样本集合中;
S36、重复步骤S34,S35,筛选表征每一个子意图代表性与不确定性的候选样本,得到引导式待反馈样本集合,并将其反馈给用户进行下轮标注。实例得到11个样本组成的引导式待反馈样本集合/>,如图4所示。
4)在用户进行迭代反馈后,计算上轮意图识别结果对本轮反馈的样本总编码长度压缩率和子意图覆盖率,并依据意图偏移准则检测上轮意图的偏移情况,若意图未偏移,直接使用上轮意图识别的结果作为本轮反馈的意图输出,跳转至步骤6);否则,执行步骤5);
步骤4)中意图偏移判断准则,具体如下:
判断准则S41:若上轮意图对本轮反馈的样本总编码长度压缩率小于上轮压缩率/>,则认为意图发生变化,具体定义如下:
其中,表示压缩率,/>和/>分别表示基于意图编码和直接编码的样本总编码长度,/>为截止当前的反馈轮数,使用Gui提出的面向地理信息资源的检索意图编码方案进行计算。
实例给出了准则S41检测出的意图变化情况,如图5的左侧所示。第和/>轮反馈直接编码总长度相同,但第/>轮反馈基于意图的样本总编码长度更长,压缩率更小,故意图发生了变化,需要对意图进行更新。
判断准则S42:若存在任一子意图,使得上轮子意图对本轮正样本的覆盖率小于上轮正样本的覆盖率,或对本轮负样本的覆盖率大于上轮负样本的覆盖率,则认为意图发生变化,具体定义如下:
其中,和/>分别表示第/>轮和第/>轮迭代的样本总编码长度压缩率,表示第/>轮迭代的第/>个子意图,/>和/>分别表示/>在第轮迭代反馈中的正样本覆盖率和负样本覆盖率,/>和/>分别表示/>在第/>轮迭代反馈中的正样本覆盖率和负样本覆盖率。
所述迭代反馈中子意图的正(负)样本覆盖率,定义为:子意图覆盖的正(负)样本数量与本轮反馈的正(负)样本总数量之比。
实例给出了准则S42检测出的意图变化情况,如图5的右侧所示。子意图覆盖了更多的本轮反馈正样本(/>)和更少的本轮反馈负样本(/>),但子意图/>对本轮反馈的正样本覆盖率减少(),对本轮反馈的负样本覆盖率增加(),因此子意图/>可能不再是用户的检索需求,需要对意图进行更新。
步骤4)所述意图偏移的判断标准,具体如下:
计算上轮意图对本轮反馈的样本总编码长度压缩率以及上轮子意图对本轮反馈的正负样本覆盖率,若满足意图偏移判断准则S41或S42,则认为当前意图发生了变化,跳转至步骤5);否则,直接使用上轮意图识别的结果作为本轮反馈的意图输出,跳至步骤6)。
5)顾及地理语义对本轮反馈正样本的概念进行语义扩展,采用Apriori算法挖掘本轮反馈频繁的候选子意图,并基于此增量更新上轮候选子意图,在新的意图搜索空间中,基于最小描述长度准则的贪心搜索策略,寻找编码长度最短的最优子意图组合,作为本轮意图更新的结果;
步骤5)顾及地理语义对本轮反馈正样本的概念进行语义扩展,具体如下:
S51、对于某正样本的第/>个维度/>的第/>个标签/>,寻找本体/>中/>对应概念/>的位置,搜索通过子类关系(subclass)指向/>的所有上位概念/>,生成包含原始概念/>与其所有的上位概念/>的语义扩展概念集合/>。例如,对于样本的地理要素维度概念/>,其本体中通过subclass关系指向/>的上位概念为/>;对于概念,其本体中通过subclass关系指向/>的上位概念为,语义扩展概念集合,如图6所示;
S52、对正样本每个维度的每个标签重复步骤S51,得到该正样本各个维度的语义扩展概念集合。如图6所示,地理要素维度的语义扩展概念集合为,空间范围维度的语义扩展概念集合为,制图方法维度的语义扩展概念集合为,主题维度的语义扩展概念集合为;
S53、对正样本集合中的每个正样本/>重复步骤S52,合并各维度的语义扩展概念集合并去重,得到正样本的维度分量集合/>;
步骤5)采用Apriori算法挖掘本轮反馈的频繁候选子意图,具体如下:
S54、将每个维度分量集合中的单个标签作为频繁项集挖掘中的单个项,计算所有单个项的支持度;
所述每个项的支持度定义为含有该项的正样本数量与本轮反馈的正样本总数量之比。
S55、判断所有单个项的支持度是否大于等于最小支持度阈值,若是则保留,若不是则剔除,得到频繁1项集;
S56、以频繁n-1项集为基础(n>1),连接生成候选n项集,每个项集是由n个标签组成的集合;
S57、依据意图形式化表达中维度取值的数量约束,剔除候选n项集中某维度存在多个取值的项集;
S58、计算候选n项集中每个项的支持度,若项支持度大于等于最小支持度阈值,则保留;否则,剔除该项,得到频繁n项集;
S59、若频繁n项集为空或只有一项,输出所有频繁项集,迭代结束;否则,令n=n+1,跳转至步骤S56;
S510、遍历所有的频繁项集,对于项数少于意图维度数的频繁项,使用维度本体的根节点补充频繁项中缺少的维度取值,生成本轮反馈频繁的候选子意图集合。
步骤5)结合本轮候选子意图增量更新上轮候选子意图,具体如下:
S511、提取本轮候选子意图和上轮候选子意图中的相同项,加入更新后的候选子意图集合中;
S512、对于每个出现在本轮候选子意图集合,但未出现在上轮候选子意图集合中的元素,计算该候选子意图在所有反馈样本中的支持度,若该候选子意图支持度大于等于支持度阈值,则将该候选子意图加入到更新后的候选子意图集合中;
S513、对于每个出现在上轮候选子意图集合,但未出现在本轮候选子意图集合中的元素,计算该候选子意图在所有反馈样本中的支持度,若该候选子意图支持度大于等于支持度阈值,则将该候选子意图加入到更新后的候选子意图集合中;
在新的意图搜索空间中,使用Gui提出的基于最小描述长度准则驱动的贪心搜索策略,寻找编码长度最短的最优子意图组合,作为本轮意图的更新结果。
6)计算本轮识别意图的置信度,若置信度高于第一阈值且相邻两次置信度变化小于第二阈值,则终止迭代,输出最优意图;否则,跳转至步骤2)进行下轮迭代。
步骤6)终止迭代的判断标准,具体如下:
计算第轮识别意图的置信度/>,若置信度满足/>且,则终止迭代,输出迭代更新后的最优意图/>;否则,跳转步骤2),进行下一轮迭代。
为验证意图更新的准确性,本发明设计了“单意图单维度”、“单意图多维度”、“多意图单维度”与“多意图多维度”4种典型意图类型,每种类型包括6种不同的用户检索意图场景。每种意图设置4种噪声级别,其中F为反馈噪声,模拟用户相关反馈时出现正负样本误选的情况,L为标签噪声,反映样本在维度上出现与意图不相关的干扰概念现象。由于用户迭代反馈的标注成本过高,本文采用随机选择的方式模拟用户的迭代反馈行为。
实验结果可通过坐标关系来表示,其中,横轴表示反馈噪声级别,纵轴表示意图识别的场景,评价指标为最佳映射平均语义相似度和杰卡德Jaccard系数。最佳映射平均语义相似度(BMASS)用于衡量识别结果与真实意图在语义及形式化表达上的一致性,具体定义如下:
设为意图识别结果,/>为用户真实检索意图,/>中子意图数量/>小于B中子意图数量/>。
①向与/>中子意图数量较少者添加该意图下的任意多个子意图直至两者子意图数量相等,子意图补充方案共有/>种;
②针对意图的每一种补充方案,通过/>、/>子意图映射得到子意图对,计算各种映射方案中子意图对的平均语义相似度最大值;
③取各个子意图补充方案中的平均语义相似度最大值作为BMASS值。
式中为意图/>进行子意图补充后的某一种可能情况,/>为/>所有子意图补充方案的集合,/>为/>到/>的一个单射,/>为所有单射的集合,/>、/>分别为/>、/>中的第/>、/>个子意图,/>为意图维度集合,/>为/>、/>中第/>、/>个子意图在第/>个维度上的维度分量/>、/>的相似度。维度分量的语义相似度计算参考Lin相似度,信息量参考上述本体概念信息量的计算方法。
杰卡德Jaccard系数(Jaccord Similarity)反映意图识别结果与真实意图在样本覆盖上的一致性,具体定义如下:
其中,与/>分别表示识别结果/>与真实意图/>覆盖的样本集合,/>表示集合交关系,/>表示集合并关系,/>表示集合中的样本数量。
实验结果表明,基于引导式迭代反馈的意图更新方案在单意图单维度的简单检索场景中表现最好,意图场景复杂度及噪声比例的变化对迭代意图更新方案的BMASS值和Jaccard系数影响较小。在各种意图检索场景下,相比于单轮意图识别,迭代意图更新方案的BMASS值和Jaccard系数均有提升,在单意图多维度和多意图多维度的场景下BMASS值提升效果最为显著,在单意图单维度和单意图多维度场景下Jaccard系数提升效果最为显著,故基于引导式迭代反馈的意图更新算法有助于精化单轮意图识别结果。
本发明还提供基于引导式迭代反馈的地理信息检索意图更新系统,包括以下模块:
置信度计算模块,用于计算当前意图及子意图的置信度;
相似度与距离计算模块,用于表征当前意图的代表性与不确定性,结合样本各维度对应的地理本体,计算每个候选样本与当前子意图之间的语义相似度与距离;
引导反馈模块,用于结合当前意图的置信度,在样本库中筛选代表性与不确定性高的样本,并选择一定数量的历史冲突样本,构成引导式待反馈样本集合供用户下轮标注;
意图偏移判断模块,用于在用户进行迭代反馈后,计算上轮意图识别结果对本轮反馈的样本总编码长度压缩率和子意图覆盖率,并依据意图偏移准则检测上轮意图的偏移情况,若意图未偏移,直接使用上轮意图识别的结果作为本轮反馈的意图输出,跳转至最优意图输出模块;否则,执行意图更新模块;
意图更新模块,用于结合本轮反馈的正负样本增量更新上轮候选子意图,并在新的意图搜索空间中,基于最小描述长度准则的贪心搜索策略,寻找编码长度最短的最优子意图组合,作为本轮意图更新的结果;
最优意图输出模块,用于计算本轮识别意图的置信度,若置信度高于第一阈值且相邻两次置信度变化小于第二阈值,则终止迭代,输出最优意图;否则,跳转至相似度与距离计算模块进行下轮迭代。
各模块的具体实现方式与各步骤相同,本发明不予撰述。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.基于引导式迭代反馈的地理信息检索意图更新方法,其特征在于,包括以下步骤:
1)计算当前意图及子意图的置信度;
步骤1)中意图及子意图的置信度计算方法为:
子意图的置信度由子意图的相容性与完备性两部分组成:第个子意图/>的相容性定义为在本轮正负反馈的所有样本中,子意图覆盖正样本数量占其覆盖所有样本的比例,具体定义如下:
其中,为第/>个子意图/>覆盖的正负样本数量,/>为第/>个子意图/>覆盖的正样本数量;
第个子意图/>的完备性/>定义为在本轮正负反馈的所有样本中,子意图覆盖正样本的数量占所有正样本的比例,具体定义如下:
其中,为第/>个子意图/>覆盖的正样本数量,/>为本轮反馈的正样本数量;
子意图置信度是指算法识别的子意图是真实子意图的可靠程度,第个子意图/>的置信度/>定义为其相容性与完备性的调和平均数,具体定义如下:
意图的置信度由意图的相容性与完备性两部分组成:意图的相容性/>定义为在本轮正负反馈的所有样本中,意图覆盖正样本数量占覆盖所有样本的比例,具体定义如下:
其中,表示意图覆盖的正样本数量,可分解成各个子意图覆盖正样本的并集大小,表示意图覆盖的样本数量,可分解成各个子意图覆盖样本的并集大小;
意图的完备性/>定义为在本轮正负反馈的所有样本中,意图覆盖正样本的数量占所有正样本的比例,具体定义如下:
意图置信度是指算法识别的意图是真实意图的可靠程度,意图的置信度/>定义为意图相容性与完备性的调和平均数,具体定义如下:
2)将候选样本的价值定义为用于表征当前意图的代表性与不确定性,结合样本各维度对应的地理本体,计算每个候选样本与当前子意图之间的语义相似度与距离;
步骤2)中候选样本的价值分为用于表征当前意图的代表性与不确定性两部分,计算方式如下:
候选样本的代表性使用样本与当前子意图之间的语义相似度进行衡量,具体定义如下:
其中,S表示样本,表示意图的所有维度集合,/>表示/>中的某个维度,/>表示第/>个子意图在第/>个维度上的单个取值,/>表示样本在第/>个维度上的概念集合;样本与子意图在某个维度上的语义相似度/>定义为多个样本概念与单个意图取值的平均相似度,具体定义如下:
其中,表示样本在该维度上的概念集合,/>表示/>中的某个概念,/>表示样本在第/>个维度上的第/>个概念, />表示/>和/>之间的相似度;
步骤2)所述候选样本的不确定性使用样本与当前子意图之间的概念距离进行衡量,具体定义如下:
其中,表示意图所有的维度集合,/>表示/>中的某个维度,/>表示第/>个子意图在第/>个维度上的单个取值;/>表示样本在第/>个维度上的概念集合;由于多标签样本拥有更加丰富的语义信息,有助于扩展用户意图的表达范围,因此,样本与子意图在某个维度上的语义距离/>定义为多个样本概念与单个意图取值的最小距离,具体定义如下:
其中,表示样本在该维度上的概念集合,/>表示/>中的某个概念,/>表示样本在第/>个维度上的第/>个概念,在本体中,两个概念之间的距离定义为由概念/>到概念/>的最短路径上的节点数减1;
3)结合当前意图的置信度,在意图覆盖与未覆盖的样本集合中分别选择一定数量的代表性与不确定性高的样本,并依据相关反馈的先后顺序选择一定数量的历史冲突样本,构成引导式待反馈样本集合供用户下轮标注;
步骤3)中构建引导式待反馈样本集合,具体如下:
S31、给定每轮引导式待反馈的样本数量,计算意图置信度/>和每个子意图的置信度/>,并根据子意图对样本的覆盖规则,得到历史冲突样本集合/>;
S32、依据中样本加入的时间顺序,从后往前选取/>个样本加入本轮引导式待反馈样本集合/>中,若历史前序反馈的冲突样本数量不足/>,则将剩余的待选数量累加到意图代表性与不确定性的待选样本数量上,其中/>;
S33、计算意图代表性与不确定性的待选样本数量以及每个子意图待选的代表性与不确定性样本数量/>,保证每个子意图对应的候选样本数目相同,其中/>,/>;
S34、在子意图覆盖的样本集合中,计算每个样本与子意图的相似度,并从高到低排序,选择前个样本作为子意图的代表性样本加入本轮引导式待反馈样本集合/>中,若候选的子意图代表性样本数量不足,则将剩余的待选数量累加到子意图不确定性待选样本数量上,其中/>;
S35、在子意图未覆盖的样本集合中,计算每个样本与子意图的语义距离,并从近到远排序,选择前个样本作为子意图的不确定性样本,加入本轮引导式待反馈样本集合中,其中/>;
S36、重复步骤S34,S35,筛选表征每一个子意图代表性与不确定性的候选样本,得到引导式待反馈样本集合,并将其反馈给用户进行下轮标注;
4)在用户进行迭代反馈后,计算上轮意图识别结果对本轮反馈的样本总编码长度压缩率和子意图覆盖率,并依据意图偏移准则检测上轮意图的偏移情况,若意图未偏移,直接使用上轮意图识别的结果作为本轮反馈的意图输出,跳转至步骤6);否则,执行步骤5);
5)结合地理语义对本轮反馈正样本的概念进行语义扩展,采用Apriori算法挖掘本轮反馈频繁的候选子意图,并基于此增量更新上轮候选子意图,在新的意图搜索空间中,基于最小描述长度准则的贪心搜索策略,寻找编码长度最短的最优子意图组合,作为本轮意图更新的结果;
6)计算本轮识别意图的置信度,若置信度高于第一阈值且相邻两次置信度变化小于第二阈值,则终止迭代,输出最优意图;否则,跳转至步骤2)进行下轮迭代。
2.根据权利要求1所述的基于引导式迭代反馈的地理信息检索意图更新方法,其特征在于:所述子意图对样本的覆盖规则,定义为:若样本在每个维度上均存在语义从属或等价于子意图/>对应维度的概念,则子意图/>覆盖样本/>;
所述历史冲突样本集合是正负性与当前意图不相容的反馈样本构成的集合,其定义为:在每轮相关反馈中,当前意图未覆盖的正样本和当前意图覆盖的负样本。
3.根据权利要求1所述的基于引导式迭代反馈的地理信息检索意图更新方法,其特征在于:步骤4)中意图偏移准则如下:
判断准则S41:若上轮意图对本轮反馈的样本总编码长度压缩率小于上轮压缩率,则认为意图发生变化,具体定义如下:
其中,rate表示压缩率,和/>分别表示基于意图编码和直接编码的样本总编码长度,/>为截止当前的反馈轮数;
判断准则S42:若存在任一子意图,使得上轮子意图对本轮正样本的覆盖率小于上轮正样本的覆盖率,或对本轮负样本的覆盖率大于上轮负样本的覆盖率,则认为意图发生变化,具体定义如下:
其中,和/>分别表示第/>轮和第/>轮迭代的样本总编码长度压缩率,/>表示第/>轮迭代意图/>的第/>个子意图,/>和/>分别表示/>在第/>轮迭代反馈中的正样本覆盖率和负样本覆盖率,/>和/>分别表示/>在第/>轮迭代反馈中的正样本覆盖率和负样本覆盖率;
所述迭代反馈中子意图的正样本覆盖率,定义为:子意图覆盖的正样本数量与本轮反馈的正样本总数量之比,子意图的负样本覆盖率,定义为:子意图覆盖的负样本数量与本轮反馈的负样本总数量之比;
意图偏移的判断标准具体如下:
计算上轮意图对本轮反馈的样本总编码长度压缩率以及上轮子意图对本轮反馈的正负样本覆盖率,若满足意图偏移判断准则S41或S42,则认为当前意图发生了变化,跳转至步骤5);否则,直接使用上轮意图识别的结果作为本轮反馈的意图输出,跳至步骤6)。
4.根据权利要求1所述的基于引导式迭代反馈的地理信息检索意图更新方法,其特征在于:步骤5)中结合地理语义对本轮反馈正样本的概念进行语义扩展,具体如下:
S51、对于某正样本的第/>个维度/>的第/>个标签/>,寻找本体/>中/>对应概念/>的位置,搜索通过子类关系指向/>的所有上位概念/>,生成包含原始概念/>与其所有的上位概念的语义扩展概念集合/>;
S52、对正样本每个维度的每个标签重复步骤S51,得到该正样本各个维度的语义扩展概念集合;
S53、对正样本集合中的每个正样本/>重复步骤S52,合并各维度的语义扩展概念集合并去重,得到正样本的维度分量集合/>。
5.根据权利要求4所述的基于引导式迭代反馈的地理信息检索意图更新方法,其特征在于:步骤5)采用Apriori算法挖掘本轮反馈的频繁候选子意图,具体如下:
S54、将每个维度分量集合中的单个标签作为频繁项集挖掘中的单个项,计算所有单个项的支持度;
所述单个项的支持度定义为含有该项的正样本数量与本轮反馈的正样本总数量之比;
S55、判断所有单个项的支持度是否大于等于最小支持度阈值,若是则保留,若不是则剔除,得到频繁1项集;
S56、以频繁n-1项集为基础,n>1,连接生成候选n项集,每个项集是由n个标签组成的集合;
S57、依据意图形式化表达中维度取值的数量约束,剔除候选n项集中某维度存在多个取值的项集;
S58、计算候选n项集中每个项的支持度,若项支持度大于等于最小支持度阈值,则保留;否则,剔除该项,得到频繁n项集;
S59、若频繁n项集为空或只有一项,输出所有频繁项集,迭代结束;否则,令n=n+1,跳转至步骤S56;
S510、遍历所有的频繁项集,对于项数少于意图维度数的频繁项,使用维度本体的根节点补充频繁项中缺少的维度取值,生成本轮反馈频繁的候选子意图集合。
6.根据权利要求5所述的基于引导式迭代反馈的地理信息检索意图更新方法,其特征在于:步骤5)结合本轮候选子意图增量更新上轮候选子意图,具体如下:
S511、提取本轮候选子意图和上轮候选子意图中的相同项,加入更新后的候选子意图集合中;
S512、对于每个出现在本轮候选子意图集合,但未出现在上轮候选子意图集合中的元素,计算该候选子意图在所有反馈样本中的支持度,若该候选子意图支持度大于等于支持度阈值,则将该候选子意图加入到更新后的候选子意图集合中;
S513、对于每个出现在上轮候选子意图集合,但未出现在本轮候选子意图集合中的元素,计算该候选子意图在所有反馈样本中的支持度,若该候选子意图支持度大于等于支持度阈值,则将该候选子意图加入到更新后的候选子意图集合中;
在新的意图搜索空间中,使用基于最小描述长度准则驱动的贪心搜索策略,寻找编码长度最短的最优子意图组合,作为本轮意图的更新结果。
7.基于引导式迭代反馈的地理信息检索意图更新系统,其特征在于,包括以下模块:
置信度计算模块,用于计算当前意图及子意图的置信度;
意图及子意图的置信度计算方法为:
子意图的置信度由子意图的相容性与完备性两部分组成:第个子意图/>的相容性定义为在本轮正负反馈的所有样本中,子意图覆盖正样本数量占其覆盖所有样本的比例,具体定义如下:
其中,为第/>个子意图/>覆盖的正负样本数量,/>为第/>个子意图/>覆盖的正样本数量;
第个子意图/>的完备性/>定义为在本轮正负反馈的所有样本中,子意图覆盖正样本的数量占所有正样本的比例,具体定义如下:
其中,为第/>个子意图/>覆盖的正样本数量,/>为本轮反馈的正样本数量;
子意图置信度是指算法识别的子意图是真实子意图的可靠程度,第个子意图/>的置信度/>定义为其相容性与完备性的调和平均数,具体定义如下:
意图的置信度由意图的相容性与完备性两部分组成:意图的相容性/>定义为在本轮正负反馈的所有样本中,意图覆盖正样本数量占覆盖所有样本的比例,具体定义如下:
其中,表示意图覆盖的正样本数量,可分解成各个子意图覆盖正样本的并集大小,表示意图覆盖的样本数量,可分解成各个子意图覆盖样本的并集大小;
意图的完备性/>定义为在本轮正负反馈的所有样本中,意图覆盖正样本的数量占所有正样本的比例,具体定义如下:
意图置信度是指算法识别的意图是真实意图的可靠程度,意图的置信度/>定义为意图相容性与完备性的调和平均数,具体定义如下:
相似度与距离计算模块,用于表征当前意图的代表性与不确定性,结合样本各维度对应的地理本体,计算每个候选样本与当前子意图之间的语义相似度与距离;
候选样本的价值分为用于表征当前意图的代表性与不确定性两部分,计算方式如下:
候选样本的代表性使用样本与当前子意图之间的语义相似度进行衡量,具体定义如下:
其中,S表示样本,表示意图的所有维度集合,/>表示/>中的某个维度,/>表示第/>个子意图在第/>个维度上的单个取值,/>表示样本在第/>个维度上的概念集合;样本与子意图在某个维度上的语义相似度/>定义为多个样本概念与单个意图取值的平均相似度,具体定义如下:
其中,表示样本在该维度上的概念集合,/>表示/>中的某个概念,/>表示样本在第/>个维度上的第/>个概念, />表示/>和/>之间的相似度;
所述候选样本的不确定性使用样本与当前子意图之间的概念距离进行衡量,具体定义如下:
其中,表示意图所有的维度集合,/>表示/>中的某个维度,/>表示第/>个子意图在第/>个维度上的单个取值;/>表示样本在第/>个维度上的概念集合;由于多标签样本拥有更加丰富的语义信息,有助于扩展用户意图的表达范围,因此,样本与子意图在某个维度上的语义距离/>定义为多个样本概念与单个意图取值的最小距离,具体定义如下:
其中,表示样本在该维度上的概念集合,/>表示/>中的某个概念,/>表示样本在第/>个维度上的第/>个概念,在本体中,两个概念之间的距离定义为由概念/>到概念/>的最短路径上的节点数减1;
引导反馈模块,用于结合当前意图的置信度,在样本库中筛选代表性与不确定性高的样本,并选择一定数量的历史冲突样本,构成引导式待反馈样本集合供用户下轮标注;
构建引导式待反馈样本集合,具体如下:
S31、给定每轮引导式待反馈的样本数量,计算意图置信度/>和每个子意图的置信度/>,并根据子意图对样本的覆盖规则,得到历史冲突样本集合/>;
S32、依据中样本加入的时间顺序,从后往前选取/>个样本加入本轮引导式待反馈样本集合/>中,若历史前序反馈的冲突样本数量不足/>,则将剩余的待选数量累加到意图代表性与不确定性的待选样本数量上,其中/>;
S33、计算意图代表性与不确定性的待选样本数量以及每个子意图待选的代表性与不确定性样本数量/>,保证每个子意图对应的候选样本数目相同,其中/>,/>;
S34、在子意图覆盖的样本集合中,计算每个样本与子意图的相似度,并从高到低排序,选择前个样本作为子意图的代表性样本加入本轮引导式待反馈样本集合/>中,若候选的子意图代表性样本数量不足,则将剩余的待选数量累加到子意图不确定性待选样本数量上,其中/>;
S35、在子意图未覆盖的样本集合中,计算每个样本与子意图的语义距离,并从近到远排序,选择前个样本作为子意图的不确定性样本,加入本轮引导式待反馈样本集合中,其中/>;
S36、重复步骤S34,S35,筛选表征每一个子意图代表性与不确定性的候选样本,得到引导式待反馈样本集合,并将其反馈给用户进行下轮标注;
意图偏移判断模块,用于在用户进行迭代反馈后,计算上轮意图识别结果对本轮反馈的样本总编码长度压缩率和子意图覆盖率,并依据意图偏移准则检测上轮意图的偏移情况,若意图未偏移,直接使用上轮意图识别的结果作为本轮反馈的意图输出,跳转至最优意图输出模块;否则,执行意图更新模块;
意图更新模块,用于结合本轮反馈的正负样本增量更新上轮候选子意图,并在新的意图搜索空间中,基于最小描述长度准则的贪心搜索策略,寻找编码长度最短的最优子意图组合,作为本轮意图更新的结果;
最优意图输出模块,用于计算本轮识别意图的置信度,若置信度高于第一阈值且相邻两次置信度变化小于第二阈值,则终止迭代,输出最优意图;否则,跳转至相似度与距离计算模块进行下轮迭代。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311473576.5A CN117194740B (zh) | 2023-11-08 | 2023-11-08 | 基于引导式迭代反馈的地理信息检索意图更新方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311473576.5A CN117194740B (zh) | 2023-11-08 | 2023-11-08 | 基于引导式迭代反馈的地理信息检索意图更新方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117194740A CN117194740A (zh) | 2023-12-08 |
CN117194740B true CN117194740B (zh) | 2024-01-30 |
Family
ID=88989074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311473576.5A Active CN117194740B (zh) | 2023-11-08 | 2023-11-08 | 基于引导式迭代反馈的地理信息检索意图更新方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194740B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及系统 |
CN114385933A (zh) * | 2022-03-22 | 2022-04-22 | 武汉大学 | 一种顾及语义的地理信息资源检索意图识别方法 |
CN115422317A (zh) * | 2022-11-04 | 2022-12-02 | 武汉大学 | 一种语义标签约束的地理信息检索意图形式化表达方法 |
CN115481727A (zh) * | 2022-09-15 | 2022-12-16 | 电子科技大学 | 一种基于进化计算的意图识别神经网络生成与优化方法 |
CN116670664A (zh) * | 2020-12-10 | 2023-08-29 | 国际商业机器公司 | 对自动响应的查询的对抗性强化 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080172380A1 (en) * | 2007-01-17 | 2008-07-17 | Wojciech Czyz | Information retrieval based on information location in the information space. |
US8190604B2 (en) * | 2008-04-03 | 2012-05-29 | Microsoft Corporation | User intention modeling for interactive image retrieval |
US9798780B2 (en) * | 2014-09-30 | 2017-10-24 | University Of Helsinki | Low-dimensional information discovery and presentation system, apparatus and method |
US11315551B2 (en) * | 2019-11-07 | 2022-04-26 | Accent Global Solutions Limited | System and method for intent discovery from multimedia conversation |
US20230222527A1 (en) * | 2022-01-12 | 2023-07-13 | Zoho Corporation Private Limited | Omnichannel data processing and analysis |
-
2023
- 2023-11-08 CN CN202311473576.5A patent/CN117194740B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及系统 |
CN116670664A (zh) * | 2020-12-10 | 2023-08-29 | 国际商业机器公司 | 对自动响应的查询的对抗性强化 |
CN114385933A (zh) * | 2022-03-22 | 2022-04-22 | 武汉大学 | 一种顾及语义的地理信息资源检索意图识别方法 |
CN115481727A (zh) * | 2022-09-15 | 2022-12-16 | 电子科技大学 | 一种基于进化计算的意图识别神经网络生成与优化方法 |
CN115422317A (zh) * | 2022-11-04 | 2022-12-02 | 武汉大学 | 一种语义标签约束的地理信息检索意图形式化表达方法 |
Non-Patent Citations (1)
Title |
---|
语义驱动的地理实体关联网络构建与知识服务;凌朝阳等;《测绘学报》;第478-489页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117194740A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444395B (zh) | 获取实体间关系表达的方法、系统和设备、广告召回系统 | |
CN102918532B (zh) | 在搜索结果排序中对垃圾的检测 | |
CN112765477B (zh) | 信息处理、信息推荐的方法和装置、电子设备和存储介质 | |
CN113204952B (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
Mohan et al. | Environment selection and hierarchical place recognition | |
CN105760443A (zh) | 项目推荐系统、项目推荐装置以及项目推荐方法 | |
CN109408578A (zh) | 一种针对异构环境监测数据融合方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN116049454A (zh) | 一种基于多源异构数据的智能搜索方法及系统 | |
CN113537304A (zh) | 一种基于双向cnn的跨模态语义聚类方法 | |
CN112948547A (zh) | 测井知识图谱构建查询方法、装置、设备及存储介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN110569367A (zh) | 一种基于知识图谱的空间关键字查询方法、装置及设备 | |
CN103577414B (zh) | 数据处理方法和设备 | |
CN117194740B (zh) | 基于引导式迭代反馈的地理信息检索意图更新方法和系统 | |
CN113342922A (zh) | 一种基于标签细粒度自监督的跨模态检索方法 | |
CN112633389A (zh) | 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法 | |
CN115344729B (zh) | 基于用户反馈的遥感影像统筹系统及方法 | |
CN116383422A (zh) | 一种基于锚点的无监督跨模态哈希检索方法 | |
CN110298228A (zh) | 一种多目标图像检索方法 | |
CN113486191B (zh) | 一种涉密电子文件定解密方法 | |
Kang et al. | Recognising informative Web page blocks using visual segmentation for efficient information extraction. | |
CN114647751A (zh) | 图像检索方法、模型训练方法、装置、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |