CN117633254A - 一种基于知识图谱的地图检索用户画像构建方法和系统 - Google Patents
一种基于知识图谱的地图检索用户画像构建方法和系统 Download PDFInfo
- Publication number
- CN117633254A CN117633254A CN202410111181.9A CN202410111181A CN117633254A CN 117633254 A CN117633254 A CN 117633254A CN 202410111181 A CN202410111181 A CN 202410111181A CN 117633254 A CN117633254 A CN 117633254A
- Authority
- CN
- China
- Prior art keywords
- map
- user
- node
- knowledge
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 35
- 230000006399 behavior Effects 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 description 7
- 235000009508 confectionery Nutrition 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000013505 freshwater Substances 0.000 description 2
- 235000014435 Mentha Nutrition 0.000 description 1
- 241001072983 Mentha Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/387—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的地图检索用户画像构建方法和系统,方法:S1、结合用户地图检索需求,设计面向地图检索的知识图谱逻辑框架;S2、基于用户相关反馈数据,构建包含用户交互行为的协作知识图谱;S3、与第三方地理语义知识库进行融合,得到领域知识扩展的用户地图检索知识图谱;S4、基于用户在地图检索系统中的行为概括用户画像特征,定义地图检索用户画像的描述维度;S5、根据用户地图检索知识图谱中信息间的关联关系及实体的分布特点,制定推理规则,得到描述维度的取值,即用户画像;S6、对不同场景的用户画像模型进行准确性验证。本发明为地理信息门户的用户意图识别、个性化资源发现与推荐算法等提供可解释依据。
Description
技术领域
本发明涉及地理信息检索技术领域,尤其涉及一种基于知识图谱的地图检索用户画像构建方法和系统。
背景技术
用户画像是常用于标签化表达用户特征与描述用户兴趣的模型,设计简洁且能够准确反映用户地图检索偏好特征的画像构建方法对地理信息资源的个性化精准发现具有重要意义。现有用户画像的构建方法多依赖于用户数据,包括用户的个人信息、在线活动、社交互动等多个维度。数据驱动的方法使得用户画像能够提供较为全面的用户特征描述。而深度学习方法,特别是卷积神经网络(CNNs)和递归神经网络(RNNs)的应用,极大地提高了从复杂、非结构化数据中提取特征的能力,使得用户画像能更精细化地捕捉用户行为模式,从而准确地表达用户的检索偏好。然而,现有技术方法仍存在如下不足1)缺乏语义理解能力,即主要关注用户的行为数据,对用户兴趣和需求的深层次语义理解把握不足,导致用户画像难以准确地刻画用户的真实需求和兴趣;2)对领域知识的有限利用,由于缺乏对领域知识的整合和利用,限制了对用户的精准服务;3)缺乏可解释性,基于深度学习的方法难以对用户特征挖掘的内部决策过程进行解读,使模型的调试和改进变得困难,不仅会降低模型的可信度,还会影响用户的使用体验。
发明内容
本发明针对现有技术的不足,提供一种基于知识图谱的地图检索用户画像构建方法,借助领域知识,在语义层面丰富并扩展了对用户相关反馈数据的理解,具有较高的可解释性和可扩展性,可望推广应用于各类地理信息门户,提高系统的用户意图识别、个性化资源发现与推荐能力。
为了达到上述目的,本发明提供的技术方案是一种基于知识图谱的地图检索用户画像构建方法,包括以下步骤:
步骤S1,结合用户地图检索需求,构建面向地图检索的知识图谱逻辑框架;
步骤S2,基于用户相关反馈数据,构建包含用户交互行为的协作知识图谱;
步骤S3,与第三方地理语义知识库进行融合,得到领域知识扩展的用户地图检索知识图谱;
步骤S4,基于用户在地图检索系统中的行为概括用户画像特征,定义地图检索用户画像的描述维度;
步骤S5,根据用户地图检索知识图谱中信息间的关联关系及实体的分布特点,获得用户画像生成规则,从而得到描述维度的取值,即用户画像。
进一步的,步骤S1包括:
步骤S11,设计面向地图检索的知识图谱逻辑框架的组成要素,包括实体及实体间的关系,其组织形式为实体用节点表示,实体与实体间的关系用边表示;其中,实体包括用户、用户相关反馈数据即交互的地图样本以及样本在地图主题、地图内容、空间范围和制图方法四个维度的标签;关系包括用户与地图样本实体间的喜好关系,地图样本与样本维度标签实体之间的包含关系;
步骤S12,引入第三方地理语义知识库的概念及概念间的层次关系,扩充知识图谱在空间范围及地图内容维度的实体及实体间的从属关系。
进一步的,步骤S2基于用户在地图检索系统中的交互行为数据和地图样本信息构建协作知识图谱,包括数据获取、数据处理、实体识别、关系抽取四个步骤;
数据获取是指获取地图检索系统中的用户反馈数据,包括用户在检索结果中对地图样本做出的喜好表达标记,被标记的地图样本为正样本,未被标记的地图样本为负样本;
数据处理是指将用户反馈数据组织为符合知识图谱结构的三元组表达形式,即实体-关系-实体的形式;
实体识别是指对重新组织的反馈数据进行实体识别,其中,字段名或标签名定义为实体类别,字段取值或标签取值则作为实体对象;
关系抽取是指在地图检索领域内对实体间的语义关系进行限定域关系抽取,采用基于预定义类别的模板完成抽取。
进一步的,步骤S3包括:
步骤S31,利用地球与环境术语语义网所提供的概念及其层次关系,在协作知识图谱的框架内对地图内容维度进行实体的扩展;
步骤S32,基于GeoNames数据库提供的概念及其上下位关系,在协作知识图谱的框架内对空间范围维度进行实体的扩展;
步骤S33,将结合用户反馈行为并融合地理领域知识的用户地图检索知识图谱存储于图数据库中,并对其进行可视化表达。
进一步的,步骤S4中地图检索用户画像的描述维度包括用户所在位置、领域方向、地图偏好、开放程度、活跃程度五个维度;
开放程度维度来量化用户对地图资源特征需求的多样性,其中/>由用户标记感兴趣地图样本的主题数量/>和地图样本库的总主题数量/>来计算:/>,/>;
活跃程度维度来描述用户对地理资源需求量,其中/>由用户标记感兴趣地图样本的频率/>和次数/>来计算:/>。
进一步的,步骤S5中用户画像生成规则具体包括:
规则1:根据知识图谱中的概念层级关系,计算节点所覆盖的正向地图样本数量,这个规则通过递归方式计算上位概念节点所覆盖的正向地图样本数量等于其所有下位概念节点所覆盖正向地图样本数量之和;
设为知识图谱中的节点集合;
每个节点覆盖一定数量的正向地图样本,表示为/>;
如果节点有子节点集合/>,则/>覆盖的正向样本数量可以递归地计算为其所有子节点覆盖样本数量之和:
;
规则2:设置节点覆盖的正向地图样本数量大于阈值,那么从所有满足条件的节点中选择代表最下位概念的节点作为画像在该维度的候选取值,这个规则考虑了节点的层级关系,选择最下位概念作为候选取值;
设为正向样本数量的阈值;
如果节点覆盖的正向样本数量/>,则这个节点成为候选节点;
从所有候选节点中选择最下位概念的节点,如果节点是最下位概念节点,则没有子节点,即/>,且满足/>,则/>被选为候选取值;
规则3:由于用户标记的地图正样本中的多个标签之间存在约束关系,规定至少需要存在一个其他维度的节点,与画像在该维度候选取值的节点所覆盖的标记地图正样本数的重合度超过一定阈值,才能确定该候选取值为画像维度的取值;
设为其他维度的节点集合;
设为节点/>覆盖的正向样本与维度/>节点覆盖的正向样本的重合度;
设为重合度的阈值;
如果存在至少一个使得/>,则将/>确定为画像维度的取值。
进一步的,还包括步骤S6,对不同场景的用户画像进行准确性验证,即使用基于词袋的余弦相似度对生成的用户画像进行评价。
进一步的,基于词袋的余弦相似度的计算公式如下:
其中,、/>分别为生成的画像及设计的画像向量,/>表示对应用户画像的标签数量,/>、/>分别对应画像标签在两画像中的向量值。
本发明还提供一种基于知识图谱的地图检索用户画像构建系统,包括以下模块:
知识图谱逻辑框架构建模块,用于结合用户地图检索需求,构建面向地图检索的知识图谱逻辑框架;
协作知识图谱构建模块,用于基于用户相关反馈数据,构建包含用户交互行为的协作知识图谱;
地图检索知识图谱构建模块,用于与第三方地理语义知识库进行融合,得到领域知识扩展的用户地图检索知识图谱;
描述维度定义模块,用于基于用户在地图检索系统中的行为概括用户画像特征,定义地图检索用户画像的描述维度;
用户画像生成模块,用于根据用户地图检索知识图谱中信息间的关联关系及实体的分布特点,获得用户画像生成规则,从而得到描述维度的取值,即用户画像。
进一步的,用户画像生成规则具体包括:
规则1:根据知识图谱中的概念层级关系,计算节点所覆盖的正向地图样本数量,这个规则通过递归方式计算上位概念节点所覆盖的正向地图样本数量等于其所有下位概念节点所覆盖正向地图样本数量之和;
设为知识图谱中的节点集合;
每个节点覆盖一定数量的正向地图样本,表示为/>;
如果节点有子节点集合/>,则/>覆盖的正向样本数量可以递归地计算为其所有子节点覆盖样本数量之和:
;
规则2:设置节点覆盖的正向地图样本数量大于阈值,那么从所有满足条件的节点中选择代表最下位概念的节点作为画像在该维度的候选取值,这个规则考虑了节点的层级关系,选择最下位概念作为候选取值;
设为正向样本数量的阈值;
如果节点覆盖的正向样本数量/>,则这个节点成为候选节点;
从所有候选节点中选择最下位概念的节点,如果节点是最下位概念节点,则没有子节点,即/>,且满足/>,则/>被选为候选取值;
规则3:由于用户标记的地图正样本中的多个标签之间存在约束关系,规定至少需要存在一个其他维度的节点,与画像在该维度候选取值的节点所覆盖的标记地图正样本数的重合度超过一定阈值,才能确定该候选取值为画像维度的取值;
设为其他维度的节点集合;
设为节点/>覆盖的正向样本与维度/>节点覆盖的正向样本的重合度;
设为重合度的阈值;
如果存在至少一个使得/>,则将/>确定为画像维度的取值。
与现有技术相比,本发明具有如下优点和有益效果:
本发明公开了一种基于知识图谱的地图检索用户画像构建方法。在设计面向地图检索的知识图谱逻辑框架的基础上,该方法基于用户相关反馈数据,构建涵盖用户交互行为的协作知识图谱;从地理语义维度出发,引入第三方地理语义知识库扩展图谱的领域知识,提高对用户行为的深度理解;概括并抽象出用户画像特征,通过从用户所在位置、领域方向、地图偏好、开放程度、活跃程度五个角度设计地图检索用户画像的描述维度;制定知识图谱的推理规则,并基于规则获得用户地图检索画像各维度取值,即生成用户画像;最后,使用基于词袋的余弦相似度对生成用户画像模型的准确性进行验证。本发明提供了一种能够简洁且准确反映用户地图检索偏好特征的画像构建方法,基于知识图谱技术,提取用户反馈数据并转化为可理解的知识,实现对用户需求的深入理解,具有较高的可解释性和可扩展性。本发明方法可推广应用于各类地理信息门户,可望提高系统的用户意图识别、个性化资源发现与推荐能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的方法流程图;
图2是本发明的知识图谱逻辑框架及其关系图;
图3为本发明具体实施例的用户地图检索画像模型示意图;
图4为本发明具体实施例的部分典型用户画像示例;
图5为本发明具体实施例的用户画像生成准确度实验结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种基于知识图谱的地图检索用户画像构建方法,如图1所示为本发明的方法流程图,包括以下步骤:
步骤S1:如图2所示,结合用户地图检索需求,设计面向地图检索的知识图谱逻辑框架;
步骤S11:设计面向地图检索的知识图谱逻辑框架的组成要素包括实体及实体间的关系,其组织形式为实体用节点表示,实体与实体间的关系用边表示;其中,知识图谱逻辑框架的实体如图2所示,实体设计包括用户、用户相关反馈数据(即交互的地图样本)以及样本在“地图主题”、“地图内容”、“空间范围”和“制图方法”四个维度的标签;面向地图检索的知识图谱逻辑框架的关系如下表1所示,关系设计包括用户与地图样本实体间的 “喜欢”关系,用关系标识符“like”表示;地图样本与样本维度标签实体之间的“包含”关系,用关系标识符“contain”表示;
表1
步骤S12:另外,还引入了第三方地理语义知识库的概念及概念间的层次关系,丰富了知识图谱在“空间范围”及“地图内容”维度的实体及实体间的从属关系。如表1所示,引入的“空间范围”实体间的关系为“……的部分”,用关系标识符“part of”表示,“地图内容”实体间的关系为“从属于”,用关系标识符“subclass of”表示;
步骤S2:基于用户相关反馈数据,构建包含用户交互行为的协作知识图谱;
具体来讲,即基于用户在地图检索系统中的交互行为数据和地图样本信息构建协作知识图谱,主要包括数据获取、数据处理、实体识别、关系抽取四个步骤;
步骤S21:获取地图检索系统中的用户反馈数据,特别是指用户在检索结果中对地图样本做出的喜好表达标记,被标记的地图样本为正样本,未被标记的地图样本为负样本,并且如下表2所示,样本由地图主题、地图内容、空间范围、制图方法四个维度组成,示例中的正样本在这四个维度上的标签分别为气候、温度、门多萨、质底法,负样本在这四个维度上的标签分别为农业、温度、洛杉矶、面积法;
表2
步骤S22:将用户反馈数据组织为符合知识图谱结构的三元组表达形式,即“实体-关系-实体”()的形式,以便抽取相关信息;其中,/>代表头实体,/>代表关系,/>代表尾实体,例如:(用户1-喜欢-地图样本1);
步骤S23:对数据进行实体识别,由于数据已经被组织成的结构化数据,因此可以直接以字段名或标签名作为实体的类别,实际字段取值或标签取值作为实体对象,以表2中的正样本为例,可以将“地图主题”字段作为该地图样本在地图主题维度的实体类别,将“气候”作为该实体的取值;
步骤S24:在地图检索领域内对实体间的语义关系进行限定域关系抽取,采用基于预定义类别的模板设计完成抽取,其中,预定义类别模板包括“用户-喜欢-样本”和“样本-包含-维度标签”两类,对于S23中识别出的每个实体对,根据用户标记行为或地图样本的维度标签信息,将其填充到相应的模板中;
步骤S3:与第三方地理语义知识库进行融合,得到领域知识扩展的用户地图检索知识图谱;
步骤S31:利用地球与环境术语语义网(Semantic Web of Earth andEnvironmental Terminology, SWEET)所提供的概念及其层次关系,对S2中构建的协作知识图谱框架内对“地图内容”维度进行实体的扩展,即通过访问SWEET本体库定位至协作知识图谱框架“地图内容”维度的实体,将对应实体的所有上位概念识别“地图内容”维度的新实体,根据SWEET本体库中的层次关系,将新实体以“从属于”(关系标识符为“sub_classof”)的关系与原有实体进行连接,实现地图样本在“地图内容”维度的实体扩展,例如,协作知识图谱中地图样本1在“地图内容”维度的实体取值为“淡水湖”,通过访问SWEET本体库中的相关概念,将“淡水湖”的上位概念,如“湖泊”、“水体”等,识别为“地图内容”维度的新实体,然后根据SWEET本体库中的层次关系,将新实体以“从属于”的关系与“淡水湖”连接,最终完成地图样本1在“地图内容”维度的实体扩展;
步骤S32:根据GeoNames数据库中的概念及上下位关系,在协作知识图谱的框架内对“空间范围”维度进行实体的扩展,即通过访问GeoNames数据库定位至协作知识图谱框架“空间范围”维度的实体,将对应实体的所有上位概念识别“空间范围”维度的新实体,根据GeoNames数据库中的层次关系,将新实体以“……的部分”(关系标识符为“part_of”)的关系与原有实体进行连接,实现地图样本在“空间范围”维度的实体扩展,例如,协作知识图谱中地图样本1在“空间范围”维度的实体取值为“洛杉矶”,通过访问GeoNames数据库中的相关概念,将“洛杉矶”的上位概念,如“美国”,识别为“空间范围”维度的新实体,然后根据GeoNames数据库中的层次关系,将新实体以“……的部分”的关系与“洛杉矶”连接,最终完成地图样本1在“空间范围”维度的实体扩展;
步骤S33:获得既顾及了用户反馈行为又融合了地理领域知识的用户地图检索知识图谱后,通过py2neo包建立Neo4j数据库的Python驱动,实现Neo4j与Python的连接,进而在Neo4j图数据库中完成知识图谱的存储和可视化表达,以与用户“U1”相关的局部知识图谱为例,节点包括350个,涵盖了“用户”、“地图样本”、“制图方法”、“空间范围”、“地图主题”五类节点,边包括681条,分别涵盖了“包含”、“喜欢”、“从属于”、“部分”四类关系;
步骤S4:基于用户在地图检索系统中的行为概括用户画像特征,定义地图检索用户画像的描述维度;
如图3所示,基于用户在地图检索系统中反馈数据从所在位置、领域方向、地图偏好、开放程度、活跃程度五个角度设计用户地图检索的画像维度;
步骤S41:文献研究调查发现,用户的地图资源访问行为与空间属性特征相关,主要以同城、同省访问为主,因此用户的地图检索行为中的地图空间范围信息可以反映用户的常驻地区,设计所在位置维度揭示用户在地图资源访问行为中的空间属性特征;
步骤S42:地图资源访问行为具有幂律特征,大多数用户的检索行为受工作、生活模式的影响,有明确的地图信息需求,设计领域方向维度旨在揭示用户的职业角色和生活习惯在其地图信息需求中的影响;
步骤S43:由于用户反馈能体现用户潜在偏好及需求,从地图资源的角度来看,更显著地体现在地图内容及制图方法层面,因此设计地图偏好维度揭示用户对地图资源内容及制图方法层面的需求;
步骤S44:受所在位置、领域方向、地图偏好的影响,用户对所检索的地图资源需求是具有明显稳定度的,然而用户性格存在差异性,更开放的用户可能更倾向于探索新鲜的地图资源,用户标记样本数据的多样性是用户开放程度的具体体现,设计开放程度维度来量化用户对地图资源特征需求的多样性,其中/>由用户标记感兴趣地图样本的主题数量(/>)和地图样本库的总主题数量(/>)来计算:/>,/>,/>的值越高,表示用户对地图资源特征需求的多样性越高;
步骤S45:不同用户的地图检索习惯不同,对地理资源需求量大、对地图检索系统信赖度高的用户往往进行更多的反馈交互行为,用户画像的活跃程度就是对用户标记兴趣地图样本次数的描述,设计活跃程度维度来描述用户对地理资源需求量,其中/>由用户标记感兴趣地图样本的频率(/>)和次数(/>)来计算:/>;
步骤S5:根据用户地图检索知识图谱中信息间的关联关系及实体的分布特点,制定推理规则,得到描述维度的取值,即用户画像;
步骤S51:综合考虑知识图谱中的信息、节点关系和用户交互的地图样本,以制定用户画像的生成规则,确保生成的画像具有良好的信息覆盖性和约束关系;
步骤S51用户画像生成规则具体包括:
规则1:根据知识图谱中的概念层级关系,计算节点所覆盖的正向地图样本数量,这个规则通过递归方式计算上位概念节点所覆盖的正向地图样本数量等于其所有下位概念节点所覆盖正向地图样本数量之和;
设为知识图谱中的节点集合;
每个节点覆盖一定数量的正向地图样本,表示为/>;
如果节点有子节点集合/>,则/>覆盖的正向样本数量可以递归地计算为其所有子节点覆盖样本数量之和:
;
规则2:如果节点覆盖的正向地图样本数量大于阈值,那么从所有满足条件的节点中选择代表最下位概念的节点作为画像在该维度的候选取值,这个规则考虑了节点的层级关系,选择最下位概念作为候选取值;
设为正向样本数量的阈值;
如果节点覆盖的正向样本数量/>,则这个节点成为候选节点;
从所有候选节点中选择最下位概念的节点,如果节点是最下位概念节点,则没有子节点(/>),且满足/>,则/>被选为候选取值;
规则3:考虑到用户标记的地图正样本中的多个标签之间可能存在约束关系,规定了至少需要存在一个其他维度的节点,与画像在该维度候选取值的节点所覆盖的标记地图正样本数的重合度超过一定阈值,才能确定该候选取值为画像维度的取值;
设为其他维度的节点集合;
设为节点/>覆盖的正向样本与维度/>节点覆盖的正向样本的重合度;
设为重合度的阈值;
如果存在至少一个使得/>,则/>可以确定为画像维度的取值;
为使规则能更好地被理解,实施例以某用户的部分可视化知识图谱为例进行解释说明,以与用户“U6”相关的局部知识图谱为例,“xx州”和“xx国”同时存在于该局部知识图谱中且“xx州”是“xx国”的一部分,即在空间范围维度,“xx国”是“xx州”的上位概念,根据规则1,“xx国”节点覆盖的样本中也包括“xx州”节点覆盖的样本,从全局来看,“xx国”节点覆盖的样本数是其所有下位概念节点覆盖的样本数之和。另外, 根据规则2,“xx国”节点和“xx州”节点覆盖的正样本数均超过阈值,两个节点均满足条件,由于“xx州”节点是最接近叶子节点的下位概念,因此选择“xx州”作为画像在所在位置维度的候选取值。在图数据库中经过查询后,结果表明“xx州”节点与地图主题维度的节点“地质学”覆盖的正样本数超过阈值,根据规则3,“xx州”可被确定为用户画像所在位置维度的取值之一;
步骤S52:基于步骤S3中构建的知识图谱,根据制定的推理规则,推理获得用户画像在各维度上的特征取值,得到最终的地图检索用户画像;
步骤S6:对不同场景的用户画像模型进行准确性验证;
实施例设计了“单维度单标签”、“单维度多标签”、“多维度单标签”、“多维度多标签”四种用户画像模型,并根据控制变量法则设计了开放程度、活跃程度不同的用户画像模型,部分典型用户画像示例如图4所示,为了验证用户画像生成的准确性,实施例使用基于词袋的余弦相似度对生成的用户画像模型进行评价,基本思想是首先基于词袋的方法将用户画像标签向量化,然后以生成的画像模型与设计画像模型向量化后的余弦相似度作为生成画像的准确度评判指标,计算公式如下:
其中,、/>分别为生成画像模型及设计画像模型向量,/>表示对应用户画像的标签数量,/>、/>分别对应画像标签在两画像模型中的向量值;
当用户开放程度、活跃程度一定时,不同用户画像模型的准确度如图5中的(a)所示,其中,不同画像模型场景下生成用户画像的平均准确度如图5中的(b)所示,根据实施例结果可知,本发明提出的基于知识图谱生成用户画像的规则具有较高的准确率,均在70%以上,同时用户画像生成的准确度与画像模型场景有关,相比之下,生成多维度画像模型的准确度比单维度画像模型的准确度低,然而各维度下标签数量对生成画像的准确度基本无影响;
为探究影响生成画像准确度的因子,实施例还计算了在“所在位置”、“领域方向”、“地图偏好”维度下取值相同,但开放程度、活跃程度不同的用户画像的准确度,实验结果如图5中的(c)所示,据图可知,相同条件下,用户开放程度越高,生成画像的准确度越低,其原因可能是用户对新鲜样本的探索行为会给用户画像的生成带来较大噪声;在不考虑冷启动的情况下,用户活跃度越高,生成准确用户画像的准确度越低,其原因可能是数量越大的行为可能产生更多干扰数据,从而增大了准确生成画像的难度。
另一方面,本发明实施例还提供一种基于知识图谱的地图检索用户画像构建系统,包括以下模块:
知识图谱逻辑框架构建模块,用于结合用户地图检索需求,构建面向地图检索的知识图谱逻辑框架;
协作知识图谱构建模块,用于基于用户相关反馈数据,构建包含用户交互行为的协作知识图谱;
地图检索知识图谱构建模块,用于与第三方地理语义知识库进行融合,得到领域知识扩展的用户地图检索知识图谱;
描述维度定义模块,用于基于用户在地图检索系统中的行为概括用户画像特征,定义地图检索用户画像的描述维度;
用户画像生成模块,用于根据用户地图检索知识图谱中信息间的关联关系及实体的分布特点,获得用户画像生成规则,从而得到描述维度的取值,即用户画像。
各模块的具体实现方式和各步骤相同,本发明不予撰述。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于知识图谱的地图检索用户画像构建方法,其特征在于,包括以下步骤:
步骤S1,结合用户地图检索需求,构建面向地图检索的知识图谱逻辑框架;
步骤S2,基于用户相关反馈数据,构建包含用户交互行为的协作知识图谱;
步骤S3,与第三方地理语义知识库进行融合,得到领域知识扩展的用户地图检索知识图谱;
步骤S4,基于用户在地图检索系统中的行为概括用户画像特征,定义地图检索用户画像的描述维度;
步骤S5,根据用户地图检索知识图谱中信息间的关联关系及实体的分布特点,获得用户画像生成规则,从而得到描述维度的取值,即用户画像。
2.根据权利要求1所述的基于知识图谱的地图检索用户画像构建方法,其特征在于:步骤S1包括:
步骤S11,设计面向地图检索的知识图谱逻辑框架的组成要素,包括实体及实体间的关系,其组织形式为实体用节点表示,实体与实体间的关系用边表示;其中,实体包括用户、用户相关反馈数据即交互的地图样本以及样本在地图主题、地图内容、空间范围和制图方法四个维度的标签;关系包括用户与地图样本实体间的喜好关系,地图样本与样本维度标签实体之间的包含关系;
步骤S12,引入第三方地理语义知识库的概念及概念间的层次关系,扩充知识图谱在空间范围及地图内容维度的实体及实体间的从属关系。
3.根据权利要求1所述的基于知识图谱的地图检索用户画像构建方法,其特征在于:步骤S2基于用户在地图检索系统中的交互行为数据和地图样本信息构建协作知识图谱,包括数据获取、数据处理、实体识别、关系抽取四个步骤;
数据获取是指获取地图检索系统中的用户反馈数据,包括用户在检索结果中对地图样本做出的喜好表达标记,被标记的地图样本为正样本,未被标记的地图样本为负样本;
数据处理是指将用户反馈数据组织为符合知识图谱结构的三元组表达形式,即实体-关系-实体的形式;
实体识别是指对重新组织的反馈数据进行实体识别,其中,字段名或标签名定义为实体类别,字段取值或标签取值则作为实体对象;
关系抽取是指在地图检索领域内对实体间的语义关系进行限定域关系抽取,采用基于预定义类别的模板完成抽取。
4.根据权利要求1所述的基于知识图谱的地图检索用户画像构建方法,其特征在于:步骤S3包括:
步骤S31,利用地球与环境术语语义网所提供的概念及其层次关系,在协作知识图谱的框架内对地图内容维度进行实体的扩展;
步骤S32,基于GeoNames数据库提供的概念及其上下位关系,在协作知识图谱的框架内对空间范围维度进行实体的扩展;
步骤S33,将结合用户反馈行为并融合地理领域知识的用户地图检索知识图谱存储于图数据库中,并对其进行可视化表达。
5.根据权利要求1所述的基于知识图谱的地图检索用户画像构建方法,其特征在于:步骤S4中地图检索用户画像的描述维度包括用户所在位置、领域方向、地图偏好、开放程度、活跃程度五个维度;
开放程度维度来量化用户对地图资源特征需求的多样性,其中/>由用户标记感兴趣地图样本的主题数量/>和地图样本库的总主题数量/>来计算:/>, />;
活跃程度维度来描述用户对地理资源需求量,其中/>由用户标记感兴趣地图样本的频率/>和次数/>来计算:/>。
6.根据权利要求1所述的基于知识图谱的地图检索用户画像构建方法,其特征在于:步骤S5中用户画像生成规则具体包括:
规则1:根据知识图谱中的概念层级关系,计算节点所覆盖的正向地图样本数量,这个规则通过递归方式计算上位概念节点所覆盖的正向地图样本数量等于其所有下位概念节点所覆盖正向地图样本数量之和;
设为知识图谱中的节点集合;
每个节点覆盖一定数量的正向地图样本,表示为/>;
如果节点有子节点集合/>,则/>覆盖的正向样本数量可以递归地计算为其所有子节点覆盖样本数量之和:
;
规则2:设置节点覆盖的正向地图样本数量大于阈值,那么从所有满足条件的节点中选择代表最下位概念的节点作为画像在维度的候选取值,这个规则考虑了节点的层级关系,选择最下位概念作为候选取值;
设 为正向样本数量的阈值;
如果节点覆盖的正向样本数量/>,则这个节点成为候选节点;
从所有候选节点中选择最下位概念的节点,如果节点是最下位概念节点,则没有子节点,即/>,且满足/>,则/>被选为候选取值;
规则3:由于用户标记的地图正样本中的多个标签之间存在约束关系,规定至少需要存在一个其他维度的节点,与画像在该维度候选取值的节点所覆盖的标记地图正样本数的重合度超过一定阈值,才能确定候选取值为画像维度的取值;
设为其他维度的节点集合;
设为节点/>覆盖的正向样本与维度/>节点覆盖的正向样本的重合度;
设为重合度的阈值;
如果存在至少一个 使得/>,则将/>确定为画像维度的取值。
7.根据权利要求1所述的基于知识图谱的地图检索用户画像构建方法,其特征在于:还包括步骤S6,对不同场景的用户画像进行准确性验证,即使用基于词袋的余弦相似度对生成的用户画像进行评价。
8.根据权利要求7所述的基于知识图谱的地图检索用户画像构建方法,其特征在于:基于词袋的余弦相似度的计算公式如下:
其中,、/>分别为生成的画像及设计的画像向量,/>表示对应用户画像的标签数量,/>、分别对应画像标签在两画像中的向量值。
9.一种基于知识图谱的地图检索用户画像构建系统,其特征在于,包括以下模块:
知识图谱逻辑框架构建模块,用于结合用户地图检索需求,构建面向地图检索的知识图谱逻辑框架;
协作知识图谱构建模块,用于基于用户相关反馈数据,构建包含用户交互行为的协作知识图谱;
地图检索知识图谱构建模块,用于与第三方地理语义知识库进行融合,得到领域知识扩展的用户地图检索知识图谱;
描述维度定义模块,用于基于用户在地图检索系统中的行为概括用户画像特征,定义地图检索用户画像的描述维度;
用户画像生成模块,用于根据用户地图检索知识图谱中信息间的关联关系及实体的分布特点,获得用户画像生成规则,从而得到描述维度的取值,即用户画像。
10.一种基于知识图谱的地图检索用户画像构建系统,其特征在于:用户画像生成规则具体包括:
规则1:根据知识图谱中的概念层级关系,计算节点所覆盖的正向地图样本数量,这个规则通过递归方式计算上位概念节点所覆盖的正向地图样本数量等于其所有下位概念节点所覆盖正向地图样本数量之和;
设为知识图谱中的节点集合;
每个节点覆盖一定数量的正向地图样本,表示为/>;
如果节点有子节点集合/>,则/>覆盖的正向样本数量可以递归地计算为其所有子节点覆盖样本数量之和:
;
规则2:设置节点覆盖的正向地图样本数量大于阈值,那么从所有满足条件的节点中选择代表最下位概念的节点作为画像在该维度的候选取值,这个规则考虑了节点的层级关系,选择最下位概念作为候选取值;
设 为正向样本数量的阈值;
如果节点覆盖的正向样本数量/>,则这个节点成为候选节点;
从所有候选节点中选择最下位概念的节点,如果节点是最下位概念节点,则没有子节点,即/>,且满足/>,则/>被选为候选取值;
规则3:由于用户标记的地图正样本中的多个标签之间存在约束关系,规定至少需要存在一个其他维度的节点,与画像在该维度候选取值的节点所覆盖的标记地图正样本数的重合度超过一定阈值,才能确定该候选取值为画像维度的取值;
设为其他维度的节点集合;
设为节点/>覆盖的正向样本与维度/>节点覆盖的正向样本的重合度;
设为重合度的阈值;
如果存在至少一个 使得/>,则将/>确定为画像维度的取值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410111181.9A CN117633254B (zh) | 2024-01-26 | 2024-01-26 | 一种基于知识图谱的地图检索用户画像构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410111181.9A CN117633254B (zh) | 2024-01-26 | 2024-01-26 | 一种基于知识图谱的地图检索用户画像构建方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117633254A true CN117633254A (zh) | 2024-03-01 |
CN117633254B CN117633254B (zh) | 2024-04-05 |
Family
ID=90036066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410111181.9A Active CN117633254B (zh) | 2024-01-26 | 2024-01-26 | 一种基于知识图谱的地图检索用户画像构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117633254B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278691A1 (en) * | 2014-04-01 | 2015-10-01 | Microsoft Corporation | User interests facilitated by a knowledge base |
US20170097984A1 (en) * | 2015-10-05 | 2017-04-06 | Yahoo! Inc. | Method and system for generating a knowledge representation |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
US20200226133A1 (en) * | 2016-10-18 | 2020-07-16 | Hithink Financial Services Inc. | Knowledge map building system and method |
CN112989065A (zh) * | 2021-03-23 | 2021-06-18 | 汪威 | 应用于大数据用户画像分析的信息处理方法和云计算平台 |
CN113505234A (zh) * | 2021-06-07 | 2021-10-15 | 中国科学院地理科学与资源研究所 | 一种生态文明地理知识图谱的构建方法 |
CN114201516A (zh) * | 2020-09-03 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 一种用户画像构建的方法、信息推荐的方法以及相关装置 |
WO2022105111A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | 区域画像图生成方法、装置、计算机设备及存储介质 |
WO2022134421A1 (zh) * | 2020-12-25 | 2022-06-30 | 平安科技(深圳)有限公司 | 基于多知识图谱的智能答复方法、装置、计算机设备及存储介质 |
WO2022140900A1 (zh) * | 2020-12-28 | 2022-07-07 | 华为技术有限公司 | 个人知识图谱构建方法、装置及相关设备 |
CN115309982A (zh) * | 2022-07-19 | 2022-11-08 | 解放号网络科技有限公司 | 一种结合知识图谱的用户画像构建方法 |
CN115982379A (zh) * | 2022-12-20 | 2023-04-18 | 福州外语外贸学院 | 基于知识图谱的用户画像构建方法和系统 |
WO2023065211A1 (zh) * | 2021-10-21 | 2023-04-27 | 华为技术有限公司 | 一种信息获取方法以及装置 |
WO2024016695A1 (zh) * | 2022-07-22 | 2024-01-25 | 山东浪潮科学研究院有限公司 | 基于多视图学习的教学知识图谱构建及检索方法及系统 |
-
2024
- 2024-01-26 CN CN202410111181.9A patent/CN117633254B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278691A1 (en) * | 2014-04-01 | 2015-10-01 | Microsoft Corporation | User interests facilitated by a knowledge base |
US20170097984A1 (en) * | 2015-10-05 | 2017-04-06 | Yahoo! Inc. | Method and system for generating a knowledge representation |
US20200226133A1 (en) * | 2016-10-18 | 2020-07-16 | Hithink Financial Services Inc. | Knowledge map building system and method |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
CN114201516A (zh) * | 2020-09-03 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 一种用户画像构建的方法、信息推荐的方法以及相关装置 |
WO2022105111A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | 区域画像图生成方法、装置、计算机设备及存储介质 |
WO2022134421A1 (zh) * | 2020-12-25 | 2022-06-30 | 平安科技(深圳)有限公司 | 基于多知识图谱的智能答复方法、装置、计算机设备及存储介质 |
WO2022140900A1 (zh) * | 2020-12-28 | 2022-07-07 | 华为技术有限公司 | 个人知识图谱构建方法、装置及相关设备 |
CN112989065A (zh) * | 2021-03-23 | 2021-06-18 | 汪威 | 应用于大数据用户画像分析的信息处理方法和云计算平台 |
CN113505234A (zh) * | 2021-06-07 | 2021-10-15 | 中国科学院地理科学与资源研究所 | 一种生态文明地理知识图谱的构建方法 |
WO2023065211A1 (zh) * | 2021-10-21 | 2023-04-27 | 华为技术有限公司 | 一种信息获取方法以及装置 |
CN115309982A (zh) * | 2022-07-19 | 2022-11-08 | 解放号网络科技有限公司 | 一种结合知识图谱的用户画像构建方法 |
WO2024016695A1 (zh) * | 2022-07-22 | 2024-01-25 | 山东浪潮科学研究院有限公司 | 基于多视图学习的教学知识图谱构建及检索方法及系统 |
CN115982379A (zh) * | 2022-12-20 | 2023-04-18 | 福州外语外贸学院 | 基于知识图谱的用户画像构建方法和系统 |
Non-Patent Citations (6)
Title |
---|
ZHIPENG GUI: "A Latent Feature-Based Multimodality Fusion Method for Theme Classification on Web Map Service", 《IEEE》, 10 February 2020 (2020-02-10) * |
桂志、吴华意等: "语义驱动的地理实体关联网络构建与知识服务", 《测绘学报》, 23 April 2023 (2023-04-23) * |
桂志鹏等: "顾及地理语义的地图检索意图形式化表达与识别", 《地球信息科学学报》, 24 May 2023 (2023-05-24) * |
王锦添: "综合历史出行模式及当前行车状态的车辆轨迹目的地预测", 《基础科学》, 30 June 2023 (2023-06-30) * |
蒋秉川等: "多源异构数据的大规模地理知识图谱构建", 《基础科学》, 15 August 2018 (2018-08-15) * |
赵安琪: "基于信号传递理论的在线健康社区医生收益预测研究", 《医药卫生科技》, 1 May 2020 (2020-05-01) * |
Also Published As
Publication number | Publication date |
---|---|
CN117633254B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Knowledge graph embedding via graph attenuated attention networks | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
CN107679661B (zh) | 一种基于知识图谱的个性化旅游路线规划方法 | |
Steiger et al. | Exploration of spatiotemporal and semantic clusters of Twitter data using unsupervised neural networks | |
Miller | The data avalanche is here. Shouldn’t we be digging? | |
Liu et al. | Simulating land-use dynamics under planning policies by integrating artificial immune systems with cellular automata | |
CN110457420B (zh) | 兴趣点位置识别方法、装置、设备及存储介质 | |
Ying et al. | A temporal-aware POI recommendation system using context-aware tensor decomposition and weighted HITS | |
CN112988917B (zh) | 一种基于多种实体上下文的实体对齐方法 | |
CN109684548B (zh) | 一种基于用户图谱的数据推荐方法 | |
CN112115971B (zh) | 一种基于异质学术网络进行学者画像的方法及系统 | |
Liu et al. | Pair-wise ranking based preference learning for points-of-interest recommendation | |
CN114461943B (zh) | 基于深度学习的多源poi语义匹配方法、装置及其存储介质 | |
Zhuang et al. | SNS user classification and its application to obscure POI discovery | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
CN113742586B (zh) | 一种基于知识图谱嵌入的学习资源推荐方法及系统 | |
CN117151052B (zh) | 一种基于大语言模型和图算法的专利查询报告生成方法 | |
Chaudhary et al. | Gumbel-SoftMax based graph convolution network approach for community detection | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN116861923B (zh) | 基于多视图无监督图对比学习的隐式关系挖掘方法、系统、计算机、存储介质 | |
CN117633254B (zh) | 一种基于知识图谱的地图检索用户画像构建方法和系统 | |
Musto et al. | Quality characteristics for user-generated content | |
Zhai et al. | DNG: taxonomy expansion by exploring the intrinsic directed structure on non-gaussian space | |
Zeng et al. | An urban cellular automata model based on a spatiotemporal non-stationary neighborhood | |
Zhang | Accuracy Recommendation Algorithm of Preschool Education Distance Teaching Course Based on Improved K-Means |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |