CN112883192B - 一种异构领域用户与资源关联挖掘方法及系统 - Google Patents

一种异构领域用户与资源关联挖掘方法及系统 Download PDF

Info

Publication number
CN112883192B
CN112883192B CN202110174972.2A CN202110174972A CN112883192B CN 112883192 B CN112883192 B CN 112883192B CN 202110174972 A CN202110174972 A CN 202110174972A CN 112883192 B CN112883192 B CN 112883192B
Authority
CN
China
Prior art keywords
concept
tag
resource
user
concepts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110174972.2A
Other languages
English (en)
Other versions
CN112883192A (zh
Inventor
梁斌
秦谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Mingtong Technology Co ltd
Original Assignee
Jiangsu Mingtong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Mingtong Technology Co ltd filed Critical Jiangsu Mingtong Technology Co ltd
Priority to CN202110174972.2A priority Critical patent/CN112883192B/zh
Publication of CN112883192A publication Critical patent/CN112883192A/zh
Application granted granted Critical
Publication of CN112883192B publication Critical patent/CN112883192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种异构领域用户与资源关联挖掘方法,包括对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量;根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。同时公开了相应的系统。本发明对标签进行扩展,基于知识图谱,获取标签对应语义的概念向量,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合,实现了异构领域用户与资源关联关系的挖掘。

Description

一种异构领域用户与资源关联挖掘方法及系统
技术领域
本发明涉及一种异构领域用户与资源关联挖掘方法及系统,属于关联挖掘领域。
背景技术
现有主流推荐算法通过寻找用户和资源共享的特征标签实现用户和资源的语义匹配,仅能建立实体间的显式、浅层关联。异构领域的用户和资源往往缺乏此类显式关联。因此现在急需一种异构领域用户与资源关联挖掘技术。
发明内容
本发明提供了一种异构领域用户与资源关联挖掘方法及系统,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
一种异构领域用户与资源关联挖掘方法,包括,
对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量;
根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;
基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。
在知识图谱中,
采用字符串完全匹配方式,将具有相同名称的标签和概念进行映射;
若标签和概念采用不同的名称指代同一实体,采用名称字符串模糊匹配方法,将标签和概念进行映射;
若一个标签能映射多个概念、并且该标签对应的用户/资源具有其他标签,获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度,相似度最高的概念作为该标签映射对象;
若一个标签能映射多个概念、并且该标签对应的用户/资源没有其他标签,则选择知识图谱中关系边的概率权重最大的概念作为映射对象。
基于社交网络和知识图谱,对用户标签集合和资源标签集合中的标签进行扩展。
概念向量中包括刻画概念语义描述能力的因子,具体为概念所属的分类。
根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;具体过程为,
根据概念向量和知识图谱中概念之间的语义关系,从知识图谱中抽取尽可能少的概念,对各标签的语义进行尽可能多的概括,获得用户标签集合的概念集合和资源标签集合的概念集合。
一种异构领域用户与资源关联挖掘系统,其特征在于:包括,
概念向量获取模块:对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量;
概念集合获取模块:根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;
关联挖掘模块:基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。
一种异构领域用户与资源关联挖掘系统,包括,
概念向量获取模块:对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量;
概念集合获取模块:根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;
关联挖掘模块:基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。
在知识图谱中,
采用字符串完全匹配方式,将具有相同名称的标签和概念进行映射;
若标签和概念采用不同的名称指代同一实体,采用名称字符串模糊匹配方法,将标签和概念进行映射;
若一个标签能映射多个概念、并且该标签对应的用户/资源具有其他标签,获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度,相似度最高的概念作为该标签映射对象;
若一个标签能映射多个概念、并且该标签对应的用户/资源没有其他标签,则选择知识图谱中关系边的概率权重最大的概念作为映射对象。
概念向量获取模块中,基于社交网络和知识图谱,对用户标签集合和资源标签集合中的标签进行扩展。
概念向量中包括刻画概念语义描述能力的因子,具体为概念所属的分类。
概念集合获取模块,根据概念向量和知识图谱中概念之间的语义关系,从知识图谱中抽取尽可能少的概念,对各标签的语义进行尽可能多的概括,获得用户标签集合的概念集合和资源标签集合的概念集合。
本发明所达到的有益效果:本发明对标签进行扩展,基于知识图谱,获取标签对应语义的概念向量,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合,实现了异构领域用户与资源关联关系的挖掘。
附图说明
图1为本发明方法的逻辑框图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
如图1所示,一种异构领域用户与资源关联挖掘方法,包括,
步骤1,进行知识图谱中概念和标签的映射。
知识图谱包含的语义信息十分丰富,不同的语义元素表达了不同的语义粒度。例如,“爱因斯坦”的语义表示可以用概念“物理学家”或“科学家”加以表示。显然,两个概念语义粒度不同,最优概念既不能过于宽泛也不能过于细化。
知识图谱中的概念(即实体)及概念间的语义关系并非针对推荐系统构建,因而不少概念在推荐系统和知识图谱中被冠以不同名称。在知识图谱中还存在部分多义概念(不同概念却有相同名称),因此实现准确的概念映射,消除概念歧义,是基于知识图谱设计标签语义表示模型的重要前提。
知识图谱庞大的概念规模、丰富的语义信息等特点对基于知识图谱的语义表示方法提出了新的要求。需要设计能适应具体的精准推荐应用需求,能从复杂结构中合理筛选概念分类、邻接实体等语义信息,并具有最优语义表示粒度的语义表示模型,还要充分考虑模型的计算效率。
具体的映射如下:
最简单的名称字符串完全匹配方式,即采用字符串完全匹配方式,将具有相同名称的标签和概念进行映射。
但是在现实中,往往标签和概念采用不同的名称指代同一实体,因此可采用基于位向量或过滤方法的名称字符串模糊匹配方法,将标签和概念进行映射。
若一个标签能映射多个概念(即多义概念)、并且该标签对应的用户/资源具有其他标签,获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度,相似度最高的概念作为该标签映射对象。
若一个标签能映射多个概念、并且该标签对应的用户/资源没有其他标签,则选择知识图谱中关系边的概率权重最大的概念作为映射对象。
对于多义概念,拟采用算法的基本原理为:同一用户/资源的标签所指代的概念基本都属于相同或相近领域。假设某个标签在知识图谱中根据名称匹配可以映射到多个概念上,则获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度ci,j=1/di,j,di,j为i与j在图谱的概念分类树中通过公共祖先结点连通的最短路径长度,分类相似度最高的概念作为该标签映射对象。如果用户/资源仅有标签i,则选选择知识图谱中关系边的概率权重最大的概念作为映射对象。
例如,假设某用户标签是“苹果、IBM、IT”,则标签“苹果”映射的概念应该是指苹果公司而非水果;而在该用户只有“苹果”标签的情况下,根据关系边的权重会被映射成最被广泛接受的概念,即某种水果。
步骤2,对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量。
基于社交网络和知识图谱,对用户标签集合和资源标签集合中的标签进行扩展。
推荐系统中针对新加入的用户或资源往往缺少描述标签和交互记录,从而造成冷启动问题。鉴于现今社交媒体网站大都包含足量的用户社交记录,用户之间的交互数据可用以推断缺失的特征数据,从而对标签进行扩展。
现有推荐系统中,特征标签大都只是对用户兴趣、职业和商品类别的描述,往往难以完全、准确地刻画实体的多维特征,从而影响最后的推荐效果。而利用知识图谱中的语义关系则能扩展出不止于共现关系的特征描述标签,有助于推荐效果的提升。
虽然更多的标签能更丰富地描述用户或资源,但标签扩展难以避免噪音标签的产生,且推荐系统的实际应用需求也限制了标签的数量规模。鉴于现有推荐系统缺少对特征标签的提炼功能,需要设计能生成全面概括所有标签语义,还能有效剔除噪音,且具有较小规模的概念向量算法,用以获取标签对应语义的概念向量。
例如:“休闲”和“娱乐”虽是两个不同的标签,但它们都出现在百科网站中“旅游”词条的解释页面中,因而两者对应的概念向量中在“旅游”的维度上都有值(如TF-IDF值),进而可以计算出这两个概念向量的相似度,即“休闲”和“娱乐”的语义相关度。鉴于知识图谱还囊括了概念所属的分类,在构造标签的概念向量时,拟引入刻画概念语义描述能力的因子(具体为概念所属的分类)以增加语义表示的粒度。此外,亦可尝试在超链接网络中应用个性化PageRank算法,用从目标概念结点随机游走至网络中其他结点的概率分布来表示目标概念的语义。或者,将随机游走概率作为链接邻居的权重值,用邻居概念向量的加权和作为目标结点的概念向量,这种模型可视为ESA模型的二阶改进。
步骤3,根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法(MDL),获取用户标签集合的概念集合和资源标签集合的概念集合。
根据概念向量和知识图谱中概念之间的语义关系,从知识图谱中抽取尽可能少的概念,对各标签的语义进行尽可能多的概括,获得用户标签集合的概念集合和资源标签集合的概念集合。
在MDL理论中,数据的可压缩度与数据的规律性密切相关。对于一组数据,如果能够找到一个模型可以符合所有数据项的分布,则利用这个模型可以大幅度减少数据编码所需的长度。借鉴该思想,从知识图谱中抽取尽可能少的概念对标签集合中各标签的语义尽可能多的概括。
具体而言,使用概念集C描述输入的标签集X。一个概念c描述一个标签x所需编码长度L(x|c)=-logP(x|c)在知识图谱中是已知的。
那么所需要的编码长度如下:
其中,L(ci)表示编码概念ci所需的描述长度,L*(xi)表示编码标签xi所需的描述长度,其定义如下:
由于标签集合往往包含难以用任何概念进行描述的标签,允许通过直接编码的方法来编码(第一种情况)。需要注意的是,在使用间接编码(第二种情况)时,还需要附加编码所采用的概念序号-log|C|。
步骤4,基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。
上述方法对标签进行扩展,基于知识图谱,获取标签对应语义的概念向量,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合,实现了异构领域用户与资源关联关系的挖掘。
实施例2
一种异构领域用户与资源关联挖掘系统,包括,
映射模块:进行知识图谱中概念和标签的映射。
知识图谱包含的语义信息十分丰富,不同的语义元素表达了不同的语义粒度。例如,“爱因斯坦”的语义表示可以用概念“物理学家”或“科学家”加以表示。显然,两个概念语义粒度不同,最优概念既不能过于宽泛也不能过于细化。
知识图谱中的概念(即实体)及概念间的语义关系并非针对推荐系统构建,因而不少概念在推荐系统和知识图谱中被冠以不同名称。在知识图谱中还存在部分多义概念(不同概念却有相同名称),因此实现准确的概念映射,消除概念歧义,是基于知识图谱设计标签语义表示模型的重要前提。
知识图谱庞大的概念规模、丰富的语义信息等特点对基于知识图谱的语义表示方法提出了新的要求。需要设计能适应具体的精准推荐应用需求,能从复杂结构中合理筛选概念分类、邻接实体等语义信息,并具有最优语义表示粒度的语义表示模型,还要充分考虑模型的计算效率。
具体的映射如下:
最简单的名称字符串完全匹配方式,即采用字符串完全匹配方式,将具有相同名称的标签和概念进行映射。
但是在现实中,往往标签和概念采用不同的名称指代同一实体,因此可采用基于位向量或过滤方法的名称字符串模糊匹配方法,将标签和概念进行映射。
若一个标签能映射多个概念(即多义概念)、并且该标签对应的用户/资源具有其他标签,获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度,相似度最高的概念作为该标签映射对象。
若一个标签能映射多个概念、并且该标签对应的用户/资源没有其他标签,则选择知识图谱中关系边的概率权重最大的概念作为映射对象。
对于多义概念,拟采用算法的基本原理为:同一用户/资源的标签所指代的概念基本都属于相同或相近领域。假设某个标签在知识图谱中根据名称匹配可以映射到多个概念上,则获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度ci,j=1/di,j,di,j为i与j在图谱的概念分类树中通过公共祖先结点连通的最短路径长度,分类相似度最高的概念作为该标签映射对象。如果用户/资源仅有标签i,则选选择知识图谱中关系边的概率权重最大的概念作为映射对象。
例如,假设某用户标签是“苹果、IBM、IT”,则标签“苹果”映射的概念应该是指苹果公司而非水果;而在该用户只有“苹果”标签的情况下,根据关系边的权重会被映射成最被广泛接受的概念,即某种水果。
概念向量获取模块:对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量。
概念向量获取模块中,基于社交网络和知识图谱,对用户标签集合和资源标签集合中的标签进行扩展。
推荐系统中针对新加入的用户或资源往往缺少描述标签和交互记录,从而造成冷启动问题。鉴于现今社交媒体网站大都包含足量的用户社交记录,用户之间的交互数据可用以推断缺失的特征数据,从而对标签进行扩展。
现有推荐系统中,特征标签大都只是对用户兴趣、职业和商品类别的描述,往往难以完全、准确地刻画实体的多维特征,从而影响最后的推荐效果。而利用知识图谱中的语义关系则能扩展出不止于共现关系的特征描述标签,有助于推荐效果的提升。
虽然更多的标签能更丰富地描述用户或资源,但标签扩展难以避免噪音标签的产生,且推荐系统的实际应用需求也限制了标签的数量规模。鉴于现有推荐系统缺少对特征标签的提炼功能,需要设计能生成全面概括所有标签语义,还能有效剔除噪音,且具有较小规模的概念向量算法,用以获取标签对应语义的概念向量。
例如:“休闲”和“娱乐”虽是两个不同的标签,但它们都出现在百科网站中“旅游”词条的解释页面中,因而两者对应的概念向量中在“旅游”的维度上都有值(如TF-IDF值),进而可以计算出这两个概念向量的相似度,即“休闲”和“娱乐”的语义相关度。鉴于知识图谱还囊括了概念所属的分类,在构造标签的概念向量时,拟引入刻画概念语义描述能力的因子(具体为概念所属的分类)以增加语义表示的粒度。此外,亦可尝试在超链接网络中应用个性化PageRank算法,用从目标概念结点随机游走至网络中其他结点的概率分布来表示目标概念的语义。或者,将随机游走概率作为链接邻居的权重值,用邻居概念向量的加权和作为目标结点的概念向量,这种模型可视为ESA模型的二阶改进。
概念集合获取模块:根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法(MDL),获取用户标签集合的概念集合和资源标签集合的概念集合。
具体为:根据概念向量和知识图谱中概念之间的语义关系,从知识图谱中抽取尽可能少的概念,对各标签的语义进行尽可能多的概括,获得用户标签集合的概念集合和资源标签集合的概念集合。
在MDL理论中,数据的可压缩度与数据的规律性密切相关。对于一组数据,如果能够找到一个模型可以符合所有数据项的分布,则利用这个模型可以大幅度减少数据编码所需的长度。借鉴该思想,从知识图谱中抽取尽可能少的概念对标签集合中各标签的语义尽可能多的概括。
具体而言,使用概念集C描述输入的标签集X。一个概念c描述一个标签x所需编码长度L(x|c)=-logP(x|c)在知识图谱中是已知的。
那么所需要的编码长度如下:
其中,L(ci)表示编码概念ci所需的描述长度,L*(xi)表示编码标签xi所需的描述长度,其定义如下:
由于标签集合往往包含难以用任何概念进行描述的标签,允许通过直接编码的方法来编码(第一种情况)。需要注意的是,在使用间接编码(第二种情况)时,还需要附加编码所采用的概念序号-log|C|。
关联挖掘模块:基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行异构领域用户与资源关联挖掘方法。
一种计算设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行异构领域用户与资源关联挖掘方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (6)

1.一种异构领域用户与资源关联挖掘方法,其特征在于:包括,
对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量;
其中,在知识图谱中,采用字符串完全匹配方式,将具有相同名称的标签和概念进行映射;若标签和概念采用不同的名称指代同一实体,采用名称字符串模糊匹配方法,将标签和概念进行映射;若一个标签能映射多个概念、并且该标签对应的用户/资源具有其他标签,获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度,相似度最高的概念作为该标签映射对象;若一个标签能映射多个概念、并且该标签对应的用户/资源没有其他标签,则选择知识图谱中关系边的概率权重最大的概念作为映射对象;
概念向量中包括刻画概念语义描述能力的因子,具体为概念所属的分类;
根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;
基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。
2.根据权利要求1所述的一种异构领域用户与资源关联挖掘方法,其特征在于:基于社交网络和知识图谱,对用户标签集合和资源标签集合中的标签进行扩展。
3.根据权利要求1所述的一种异构领域用户与资源关联挖掘方法,其特征在于:根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;具体过程为,
根据概念向量和知识图谱中概念之间的语义关系,从知识图谱中抽取尽可能少的概念,对各标签的语义进行尽可能多的概括,获得用户标签集合的概念集合和资源标签集合的概念集合。
4.一种异构领域用户与资源关联挖掘系统,其特征在于:包括,
概念向量获取模块:对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量;
其中,在知识图谱中,采用字符串完全匹配方式,将具有相同名称的标签和概念进行映射;若标签和概念采用不同的名称指代同一实体,采用名称字符串模糊匹配方法,将标签和概念进行映射;若一个标签能映射多个概念、并且该标签对应的用户/资源具有其他标签,获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度,相似度最高的概念作为该标签映射对象;若一个标签能映射多个概念、并且该标签对应的用户/资源没有其他标签,则选择知识图谱中关系边的概率权重最大的概念作为映射对象;
概念向量中包括刻画概念语义描述能力的因子,具体为概念所属的分类;
概念集合获取模块:根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;
关联挖掘模块:基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。
5.根据权利要求4所述的一种异构领域用户与资源关联挖掘系统,其特征在于:概念向量获取模块中,基于社交网络和知识图谱,对用户标签集合和资源标签集合中的标签进行扩展。
6.根据权利要求4所述的一种异构领域用户与资源关联挖掘系统,其特征在于:概念集合获取模块,根据概念向量和知识图谱中概念之间的语义关系,从知识图谱中抽取尽可能少的概念,对各标签的语义进行尽可能多的概括,获得用户标签集合的概念集合和资源标签集合的概念集合。
CN202110174972.2A 2021-02-09 2021-02-09 一种异构领域用户与资源关联挖掘方法及系统 Active CN112883192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110174972.2A CN112883192B (zh) 2021-02-09 2021-02-09 一种异构领域用户与资源关联挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110174972.2A CN112883192B (zh) 2021-02-09 2021-02-09 一种异构领域用户与资源关联挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN112883192A CN112883192A (zh) 2021-06-01
CN112883192B true CN112883192B (zh) 2023-09-05

Family

ID=76056230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110174972.2A Active CN112883192B (zh) 2021-02-09 2021-02-09 一种异构领域用户与资源关联挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN112883192B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089722B (zh) * 2023-02-15 2023-11-21 北京欧拉认知智能科技有限公司 基于图产出标签的实现方法、装置、计算设备和存储介质
CN117033527B (zh) * 2023-10-09 2024-01-30 之江实验室 一种知识图谱的构建方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593792A (zh) * 2013-11-13 2014-02-19 复旦大学 一种基于中文知识图谱的个性化推荐方法与系统
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN111311059A (zh) * 2020-01-16 2020-06-19 成都大汇物联科技有限公司 基于知识图谱的水车室故障诊断方法
CN111538842A (zh) * 2019-11-15 2020-08-14 国家电网有限公司 网络空间态势的智能感知和预测方法、装置和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593792A (zh) * 2013-11-13 2014-02-19 复旦大学 一种基于中文知识图谱的个性化推荐方法与系统
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN111538842A (zh) * 2019-11-15 2020-08-14 国家电网有限公司 网络空间态势的智能感知和预测方法、装置和计算机设备
CN111311059A (zh) * 2020-01-16 2020-06-19 成都大汇物联科技有限公司 基于知识图谱的水车室故障诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
linking knowlledge graphs across languages with sementic similarity and machine translation;John P M Crae等;computer science;1-7 *

Also Published As

Publication number Publication date
CN112883192A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CN110717106B (zh) 信息推送的方法及装置
US9460117B2 (en) Image searching
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN104933164A (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN112883192B (zh) 一种异构领域用户与资源关联挖掘方法及系统
Kumar et al. Effective information retrieval and feature minimization technique for semantic web data
Lubis et al. A framework of utilizing big data of social media to find out the habits of users using keyword
US20230074771A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
Nguyen et al. An efficient algorithm for mining frequent weighted itemsets using interval word segments
Duan et al. A web knowledge-driven multimodal retrieval method in computational social systems: Unsupervised and robust graph convolutional hashing
JP2023517518A (ja) ヌル値又は同等の値を有するリレーショナル・テーブルのためのベクトル埋込モデル
CN106599305B (zh) 一种基于众包的异构媒体语义融合方法
Desai et al. A survey on techniques for indexing and hashing in big data
CN113011152B (zh) 文本处理方法、装置、设备及计算机可读存储介质
Liu et al. A framework for image dark data assessment
CN111507098B (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质
Chanda et al. An improved web page recommendation system using partitioning and web usage mining
CN112632981A (zh) 一种新词发现方法和装置
CN110188301A (zh) 用于网站的信息聚合方法及装置
Imamura et al. Fast hilbert sort algorithm without using hilbert indices
CN104102654A (zh) 一种词汇聚类的方法及装置
Benna et al. Building a social network, based on collaborative tagging, to enhance social information retrieval
CN117688140B (zh) 文档查询方法、装置、计算机设备和存储介质
CN113407714B (zh) 基于时效的数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant