CN108427723B - 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统 - Google Patents

一种基于聚类算法和局部感知重构模型的作者推荐方法和系统 Download PDF

Info

Publication number
CN108427723B
CN108427723B CN201810135040.5A CN201810135040A CN108427723B CN 108427723 B CN108427723 B CN 108427723B CN 201810135040 A CN201810135040 A CN 201810135040A CN 108427723 B CN108427723 B CN 108427723B
Authority
CN
China
Prior art keywords
node
author
local
introduction
book
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810135040.5A
Other languages
English (en)
Other versions
CN108427723A (zh
Inventor
张海军
王双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201810135040.5A priority Critical patent/CN108427723B/zh
Publication of CN108427723A publication Critical patent/CN108427723A/zh
Application granted granted Critical
Publication of CN108427723B publication Critical patent/CN108427723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于聚类算法和局部感知重构模型的作者推荐方法及其系统,通过作者相关信息的树形结构表达、节点的特征表达、层次节点的位置映射、局部感知重构模型的建立,将由树形结构表示的作者信息转化为统一的向量表示,该向量包含了作者的相关信息及与作者相关的各层次的结构信息。进一步地,根据作者信息的统一向量表示,进行相关作者的推荐和检索。所述方法包括:A、树形结构表达;B、节点特征表达;C、层次节点位置映射;D、建立和求解局部感知重构模型;E、树形结构的统一向量表示;F、基于内容的作者推荐和检索。

Description

一种基于聚类算法和局部感知重构模型的作者推荐方法和 系统
技术领域
本发明属于文本挖掘和推荐系统领域,将异构信息数据按照其内部逻辑结构,组织形成树形结构,通过各层次的聚类及局部感知重构模型,实现有效的树形结构向量表示,所述方法及系统使用来自于不同域的作者信息最原始输入。
背景技术
随着互联网技术的不断推进和发展,网络数据规模日益扩大。数据的来源及数据的组织形式依据不同的应用场景具有多样性。对于每一个用户,与之相关的数据来源具有多样性,如果能够将这些数据进行有效的组织、提取、融合,则最终能够获得与该用户更为全面的信息表示。例如,对于某一作者来说,与该作者相关的不同来源的数据能够体现出与这个作者有关的不同层面的信息。具体地,该作者的背景简介、该作者所著书的简介、读者对该作者所著书的评论信息,能够从不能层面反映该作者的信息,且依据各部分数据集的内在逻辑特征,可以将这三部分数据集组织形成树形结构,从而体现数据的层次关系,有利于层次间信息的相互补充及异构信息的融合。
对于树形结构数据的向量化表示方法,尚未有针对性的研究。在已有的较为相关的工作中,主要是进行树形结构底层信息的低维度映射,从而实现信息的融合,但并未考虑树形结构数据的层次结构特征。因此,针对于树形结构数据,本研究考虑到树形结构数据的结构特征,逐层提取树形结构数据的各层次信息,并自底向上进行逐层的信息融合,最终获得统一结构的向量表示,进一步将形成的向量应用于分类或聚类。
“词袋”模型作为典型的基于全文内容表达的研究方法,该类方法的目的在于获得能够表示整篇文档内容的向量。但该类方法仅依赖于对于文本中词语的词频统计,而忽略了词语的空间分布信息,导致该方法很难区分出词频相似但词语的空间分布有差异的两个样本。因此,为了获得更准确的作者信息的向量表达,在本发明的建模过程中考虑了作者各层次信息的空间特征。
树形结构作为一种有效的数据组织和表达方式,可以体现出数据内部的层次关系和空间结构特征。因此,可以将与作者相关的信息按照“作者简介->书的简介->作者评论”的方式进行组织,形成一棵三层的树形结构,从而体现出作者信息的空间结构特征,在一定程度上弥补“词袋”模型对于文本空间信息的忽略。但按照树形结构进行组织的数据不便于样本间相似度的计算,因此需要对树形结构数据的层次信息进一步的整合,从而形成统一的向量表示,以便于实现进一步的系统推荐。
为了实现树形结构数据的层次信息整合,本发明中提出了一种基于聚类算法和局部感知重构模型的作者推荐系统。对于某一个两层子树,通过K-means聚类算法实现叶子节点信息的位置映射从而保存节点的全局信息,通过使用孩子节点信息重构其父节点信息获取对父节点的补充信息,进而获得该子树的局部向量表示,并更新该父节点的向量表示,该过程自底向上,直至将树形结构数据转化为统一的向量表示,从而使得该向量包含了该树形结构数据的层次信息。
发明内容
本发明的目的在于提供一种基于聚类算法和局部感知重构模型的作者推荐系统,旨在解决现有技术中存在的问题。
本发明通过以下技术方案实现:一种基于聚类算法和局部感知重构模型的作者推荐系统,所述方法包括以下步骤:
A、树形结构表达模块:对于每一位作者,将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息,按照内部逻辑结构信息组织成为“作者简介->书的简介->读者评论”的三层作者树结构;
B、节点特征表达模块:构建词汇表,计算词分布向量,进一步使用主成分分析(Principal Component Analysis,PCA)对各层次节点的词分布向量进行降维、压缩、以便于进一步的模型运算;
C、层次节点位置映射模块:使用K-means对属于同一层次的节点进行聚类,获取该层次各节点的相对关系信息,进行各层次节点的位置映射;
D、局部感知重构模型模块:使用孩子节点的信息对其父节点信息进行重构,即建立局部感知重构模型,求解局部感知重构模型并获得局部感知重构系数向量;
E、树形结构的统一向量表示模块:根据在C、D中获得的层次节点位置信息、局部感知重构系数向量,将节点的层次位置信息与局部感知重构信息进行融合,获取局部向量表示,更新该节点的特征向量表示。该过程自底向上逐层进行,直至将树形结构表示的作者数据压缩成为统一的向量表示;
F、基于内容的作者推荐和检索模块:使用作者信息的统一向量表示进行作者的检索,通过相似度的计算为用户进行相关内容的作者推荐。
作为本发明的进一步改进,所述树形结构表达步骤包括以下步骤:
A1、“作者简介->书的简介”子树构建:对于一个作者树,将“作者简介”作为根节点,将“书的简介”作为“作者简介”的子节点,构成两层的“作者简介->书的简介”子树;
A2、“作者简介->书的简介->读者评论”作者树构建:对于作者的某一本书,将“书的简介”作为父节点,将“读者评论”作为“书的简介”的字节点,从而构成三层的“作者简介->书的简介->读者评论”作者树。
作为本发明的进一步改进,所述节点特征表达步骤包括以下步骤:
B1、构建词汇表:经过文本分割、去停用词、词根还原、单词纠错等文本预处理操作之后,建立全数据集的词汇表,并对数据集中的电子书进行词频统计;
B2、计算词分布向量:使用词频-逆文档频率(term frequency–inverse documentfrequency,tf-idf)模型计算每个单词的权重,从而获得树结构中各个节点的词分布向量;
B3、特征降维:为了实现计算的可行性,使用主成分分析法(Principal ComponentAnalysis,PCA)对树结构中各个节点加权的词向量进行压缩、降维。
作为本发明的进一步改进,所述节点位置映射步骤包括以下步骤:
C1、层次节点聚类:使用K-means算法对来自于同一层次的节点进行聚类,获取若干个聚类中心;
C2、层次节点位置映射:将各个层次的节点分配到其所属的聚类中心,并计算各个节点与其所属聚类中心的距离,获取该层次各个节点的相对位置关系,从而实现各个层次节点的位置映射。
作为本发明的进一步改进,所述局部感知重构模型表示步骤包括以下步骤:
D1、建立局部感知重构模型:对于树中的某一节点(该节点有孩子节点),使用该节点的孩子节点的信息对该节点的信息进行重构,从而有针对性的衡量一个孩子节点对父节点的信息重构能力;
D2、局部感知重构模型的求解:求解局部感知重构模型,获得局部重构系数向量,重构系数的大小表明该孩子节点对其父节点信息的重构能力,重构系数越大表明该节点对其父节点的重构能力越强。而该作者树的各层信息来自于不同的域,本方法希望获取子节点对父节点的补充信息。因此,对于父节点重构能力较差的孩子节点,由于其与父节点的差异性更大,应该赋予其更大的权重,以此来获取其对父节点的补充信息。
作为本发明的进一步改进,所述树形结构的统一向量表示步骤包括以下步骤:
E1、将C2中的每一个节点的位置信息分别乘以D2中相应节点的局部感知重构系数,获取该节点的局部信息表示;
E2、对于属于同一父节点的所有孩子节点,均按照E1进行操作,获取该父节点的局部向量表示。
E3、对于E2中的操作自底向上逐层进行,直至将树形结构表示的作者数据压缩成为统一的向量表示。
作为本发明的进一步改进,所述基于内容的作者推荐和检索步骤包括以下步骤:
F1、使用作者信息的统一向量表示进行相关作者的内容检索,通过相似度的计算为用户进行相关内容的作者推荐。
本发明的另一目的在于提供一种基于聚类算法和局部感知重构模型的作者推荐系统,所述基于聚类算法和局部感知重构模型的作者推荐系统包括:
树形结构表达模块:对于每一位作者,将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息,按照内部逻辑结构信息组织成为“作者简介->书的简介->读者评论”的三层作者树结构;
节点特征表达模块:构建词汇表,计算词分布向量,进一步使用主成分分析(Principal Component Analysis,PCA)对各层次节点的词分布向量进行降维、压缩、以便于进一步的模型运算;
层次节点位置映射模块:使用K-means对属于同一层次的节点进行聚类,获取该层次各节点的相对关系信息,进行各层次节点的位置映射;
局部感知重构模型模块:使用孩子节点的信息对其父节点信息进行重构,即建立局部感知重构模型,求解局部感知重构模型并获得局部感知重构系数向量;
树形结构的统一向量表示模块:根据上述操作所获得的层次节点位置信息、局部感知重构系数向量,将节点的层次位置信息与局部感知重构信息进行融合,获取局部向量表示,更新该节点的特征向量表示。该过程自底向上逐层进行,直至将树形结构表示的作者数据压缩成为统一的向量表示;
基于内容的作者推荐和检索模块:使用作者信息的统一向量表示进行作者的检索,通过相似度的计算为用户进行相关内容的作者推荐。
作为本发明的进一步改进,所述树形结构表达模块包括:
“作者简介->书的简介”子树构建:对于一个作者树,将“作者简介”作为根节点,将“书的简介”作为“作者简介”的子节点,构成两层的“作者简介->书的简介”子树;
“作者简介->书的简介->读者评论”作者树构建:对于作者的某一本书,将“书的简介”作为父节点,将“读者评论”作为“书的简介”的字节点,从而构成三层的“作者简介->书的简介->读者评论”作者树。
作为本发明的进一步改进,所述节点特征表达模块包括:
构建词汇表:经过文本分割、去停用词、词根还原、单词纠错等文本预处理操作之后,建立全数据集的词汇表,并对数据集中的电子书进行词频统计;
计算词分布向量:使用词频-逆文档频率(term frequency–inverse documentfrequency,tf-idf)模型计算每个单词的权重,从而获得树结构中各个节点的词分布向量;
特征降维:为了实现计算的可行性,使用主成分分析法(Principal ComponentAnalysis,PCA)对树结构中各个节点加权的词向量进行压缩、降维。
作为本发明的进一步改进,所述层次节点位置映射模块包括:
层次节点聚类:使用K-means算法对来自于同一层次的节点进行聚类,获取若干个聚类中心;
层次节点位置映射:将各个层次的节点分配到其所属的聚类中心,并计算各个节点与其所属聚类中心的距离,获取该层次各个节点的相对位置关系,从而实现各个层次节点的位置映射。
作为本发明的进一步改进,所述局部感知重构模型模块包括:
建立局部感知重构模型:对于树中的某一节点(该节点有孩子节点),使用该节点的孩子节点的信息对该节点的信息进行重构,从而有针对性的衡量一个孩子节点对父节点的信息重构能力;
局部感知重构模型的求解:求解局部感知重构模型,获得局部重构系数向量,重构系数的大小表明该孩子节点对其父节点信息的重构能力,重构系数越大表明该节点对其父节点的重构能力越强。而该作者树的各层信息来自于不同的域,本方法希望获取子节点对父节点的补充信息。因此,对于父节点重构能力较差的孩子节点,由于其与父节点的差异性更大,应该赋予其更大的权重,以此来获取其对父节点的补充信息。
作为本发明的进一步改进,所述树形结构的统一向量表示模块包括:
将每一个节点的位置信息分别乘以相应节点的局部感知重构系数,获取该节点的局部信息表示;
对于属于同一父节点的所有孩子节点,均按照上一步进行操作,获取该父节点的局部向量表示。
对于上一步中的操作自底向上逐层进行,直至将树形结构表示的作者数据压缩成为统一的向量表示。
作为本发明的进一步改进,所述基于内容的作者推荐和检索包括:
使用作者信息的统一向量表示进行相关作者的内容检索,通过相似度的计算为用户进行相关内容的作者推荐。
本发明的有益效果是:本发明提供的基于聚类算法和局部感知重构模型的作者推荐系统,将异构的作者信息按照“作者简介->书的简介->读者评论”的形式组织成三层的树形结构,与传统的“词袋”模型相比可以体现出文本信息的层次结构,有利于进一步增强作者信息的向量表示。为了实现树形结构数据的层次信息整合,本发明中提出了一种基于聚类算法和局部感知重构模型的作者推荐系统。对于某一个两层子树,通过K-means聚类算法实现叶子节点信息的位置映射从而保存节点的全局信息,通过使用孩子节点信息重构其父节点信息获取对父节点的补充信息,进而获得该子树的局部向量表示,并更新该父节点的向量表示,该过程自底向上,直至将树形结构数据转化为统一的向量表示,从而使得该向量包含了该树形结构数据的层次信息。进一步地,实现相关内容的作者检索和推荐。
附图说明
图1是本发明的基于聚类算法和局部感知重构模型的作者推荐系统研究的流程图;
图2是本发明的基于聚类算法和局部感知重构模型的作者推荐系统研究的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的基于聚类算法和局部感知重构模型的作者推荐系统研究。本发明的主要创新的工作为以下六个部分:1)树形结构表达模块;2)节点特征表达模块;3)层次节点位置映射模块;4)局部感知重构模型;5)树形结构的统一向量表示;6)基于内容的作者推荐和检索。第一部分是对作者的相关信息进行组织,将作者的相关信息组织形成“作者简介->书的简介->读者评论”的三层树形结构。第二部分进行节点的特征表达,构建词汇表,计算词分布向量,并使用主成分分析(Principal Component Analysis,PCA)进行特征的降维、压缩。第三部分使用K-means聚类算法,将来自于同一层次的节点进行位置映射,获取属于同一层次节点的全局信息。第四部分使用局部感知重构模型,使用孩子节点信息重构其父节点信息获取对父节点的补充信息。第五部分将层次节点位置信息、局部感知重构系数向量,将节点的层次位置信息与局部感知重构信息进行融合,获取局部向量表示,更新该节点的特征向量表示。该过程自底向上逐层进行,直至将树形结构表示的作者数据压缩成为统一的向量表示。第六部分将作者信息的统一向量表示用于相关作者的内容检索,通过相似度的计算为用户进行相关内容的作者推荐。
图1示出了本发明提供的基于聚类算法和局部感知重构模型的作者推荐系统的流程图,其详述如下:
步骤S1,树形结构表模块:对于每一位作者,将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息,按照内部逻辑结构信息组织成为“作者简介->书的简介->读者评论”的三层作者树结构。具体步骤如下:
首先,进行“作者简介->书的简介”子树的构建。对于一个作者树,将“作者简介”作为根节点,将“书的简介”作为“作者简介”的子节点,构成两层的“作者简介->书的简介”子树;
进一步地,进行“作者简介->书的简介->读者评论”作者树的构建。对于作者的某一本书,将“书的简介”作为父节点,将“读者评论”作为“书的简介”的字节点,从而构成三层的“作者简介->书的简介->读者评论”作者树。
步骤S2,节点特征表达:对由“作者简介->书的简介->读者评论”三层树形结构组织的作者信息进行特征表达,既对树中节点所对应的内容进行信息提取,将所有节点的特征表达映射到相同的语义空间。具体步骤如下:
(S21)构建词汇表:
文本分割:为了进行关键词的提取,首先需要进行文本分割。因为本发明涉及的文本均为英文文本,故只需要将文本内的标点符号去除,并按照空格进行分割。
去停用词:对于一些使用较频繁但没有实际含义的单词进行剔除,如“a”、“the”、“are”等。
词根还原:英语中的单词存在很多形式,如动词、名词、单复数变化等。因此需要对于单词进行词根还原,如“read”、“reads”、“reading”等,在本发明中均被认为同一词语。
单词纠错:在文本抽取过程中可能存在单词错误的地方,所以需要进行单词纠错。
词汇表构建:经过上述预处理步骤之后,统计并保存还原后的单词的词频(termfrequency,tf)、文本频率(document frequency,df)、fu t(在所有文档中第u个单词的词频)、
Figure BDA0001576017770000111
(第u个单词出现的文档的总个数)。进一步地,本发明仅保留出现频率超过5次的单词,从而构建最终的词汇表。
(S22)计算词分布向量:
使用上一步确定的词汇表,对树中各个节点所对应的内容进行词频统计获得词频分布向量,进一步的使用词频-逆文档频率(term frequency–inverse documentfrequency,tf-idf)模型计算每个单词的权重,从而获得树结构中各个节点的加权词分布向量。
对于树中的根节点,即表示作者树的“作者简介”节点,其词分布向量可表示为,其中
Figure BDA0001576017770000121
nv表示词汇表中的第v个单词出现的次数,Tauthor表示所建立的词汇表的长度。同理,树中的“书的简介”和“作者评论”节点的词分布向量可分别表示为:
Figure BDA0001576017770000122
Figure BDA0001576017770000123
使用词频-逆文档频率(term frequency–inverse document frequency,tf-idf)模型进行加权的词分布向量计算。对于“作者简介”节点,其加权的词分布向量可以表示为:
Figure BDA0001576017770000124
其中
Figure BDA0001576017770000125
Nauthor为数据集中作者简介的个数。同理,可以得到Hbook和Hcomment
(S23)特征降维:
在S23中得到的词分布向量,其维度为Tauthor即词汇表的长度,该值通常较大。而在实际应用中,维度过大的特征向量不利于建模过程中的计算及相似度的衡量,因此使用主成分分析(Principal Component Analysis,PCA)进行特征降维。
使用PCA将节点的词分布向量映射到一个维度更低的特征向量,可以表示为:
Fh=H×B
其中,B表示使用数据集中顶层节点(即“作者简介”)的内容通过PCA求解得到的映射矩阵,其维度为Tcomment×mF,mF为词分布向量经映射矩阵B压缩后所得的特征向量的维度,树中三个层次的节点压缩后保留相同维度的特征向量,即均为mF;H表示在S22中得到的词分布向量,可以是Hauthor或Hbook或Hcomment;Fh表示词分布向量H经映射矩阵B压缩后所得的特征向量。
步骤S3,使用K-means对来自于同一层次的节点进行位置映射,保存该层次节点的全局信息。具体步骤如下:
对于树中第l层的节点属性向量为Fl,其中l=1,2,…,Le-1,其中Le表示树的深度。具体地可表示为
Figure BDA0001576017770000131
其中
Figure BDA0001576017770000132
为节点Fl的第i个属性,
Figure BDA0001576017770000133
表示Fl的第j个局部属性。集合
Figure BDA0001576017770000134
表式节点Fl自身的属性,
Figure BDA0001576017770000135
表示由其孩子节点获得的局部属性。局部属性
Figure BDA0001576017770000136
通过K-means获取树形结构数据的空间层次分布信息。当K-means迭代收敛后,得到c个簇中心。进一步的,确定各个节点所属的类,并计算该节点到其所属簇中心的距离,则得到每一个节点的位置映射,既到了该层的全局信息。具体的距离计算公式为:
Figure BDA0001576017770000137
用来衡量树的第t个节点到第j个类中心的距离,
Figure BDA0001576017770000138
分别表示该节点及其所属类的局部属性,w为权重,用于平衡节点属性与孩子节点的位置属性。D表示用于局部属性相似性衡量的函数,根据具体应用的不同而决定。常见的有欧式距离,夹角余弦距离等。
对于树形结构的每一层,输入所有来自于同一层次节点的特征向量{Fi}进入K-means用于聚类。每一层K-means的聚类个数是由其上层节点的特征向量的维数确定的。在每一层聚类结束之后,每个节点被分派到一个簇中。在实际应用中,每个节点属性的维度通常大于其孩子节点的个数,一个节点通常会包含很多个孩子节点,在节点位置映射过程中,会有多个节点映射到同一个位置。因此,
Figure BDA0001576017770000141
可能包含一些0元素。本方法采用了一种节点映射过程,将每一个节点映射到相应的簇中。给定一个树Ti中的节点的集合,
Figure BDA0001576017770000142
表示树Ti中的第n个节点的孩子节点集合,其中I1和I2表示分别表示节点v的最小节点索引和最大节点索引。cj(j=1,2,...,cmax)表示第j个簇的中心,cmax表示指定层次的簇的个数。Nj为从Vi,n映射到第j个簇的个数。具体节点位置映射算法如算法1所示。
算法1节点位置映射算法
Figure BDA0001576017770000143
步骤S4,对于任意一个二层子树,构建局部感知重构模型,使用孩子节点信息对父节点信息进行重构,求解局部感知重构模型,获取该父节点的补充信息,实现节点信息的增强表达。具体步骤如下:
对同一节点的多个子节点进行信息重构,建立局部感知重构(Local SensitiveReconstruction,LSR)模型,从而有针对性的衡量一个孩子节点对父节点的信息重构能力。而实际上,各层次节点信息是异源的,因此希望通过子节点得到与父节点本身更不相同的信息。因此,对于父节点重构能力较差的孩子节点,由于其与父节点的差异性更大,本方法赋予其更大的权重,以此来补充父节点的信息。
具体地,局部感知重构模型可表示为:
Figure BDA0001576017770000151
subject to 1Tβ=1
为了求解上述局部感知重构模型,获取重构模型中的局部权重,需要构建拉格朗日函数L(β,μ):
Figure BDA0001576017770000152
为了求解上述拉格朗日函数L(β,μ),需要将其转换为:
L(β,μ)=βTΓβ+λβTdiag(q)2β+μ(1Tβ-1)
其中,
Figure BDA0001576017770000153
diag(q)是一个对角矩阵,其每个非零元素值为pi
进一步地,令
Figure BDA0001576017770000154
则有式:
2(Γ+λdiag(q)2)β+μ1=0
对上式两边分别乘以1T(Γ+λdiag(q)2)-1/2,可得μ=-2(1T(Γ+λdiag(q)2)-11)-1。将μ带入上式,可得局部感知权重的解析解如下式所示:
Λ=(Γ+λdiag(q)2)-11,
β=Λ/(1TΛ)
而在该局部重构模型是为了获得孩子节点与其父节点的差异信息,从而对其父节点信息进行补充,因此最终的局部感知权重应为下式所示:
Figure BDA0001576017770000161
其中,
Figure BDA0001576017770000162
为最终的局部权重,每一维的数值越大,表明其相应的孩子节点对父节点信息的补充能力越强。
步骤S5,将由步骤S3所获得的层次位置信息与由步骤S4所获得的局部感知重构信息进行融合,获取局部向量表示,更新该节点的特征向量表示。该过程自底向上逐层进行,直至将树形结构表示的作者数据压缩成为统一的向量表示。具体步骤如下:
对于任意一个二层子树,构建局部感知重构模型,使用孩子节点信息对父节点信息进行重构,求解局部感知重构模型,获取该父节点的补充信息,实现节点信息的增强表达。具体步骤如下:
根据S3所获得的层次位置信息与由步骤S4所获得的局部感知重构信息,局部向量的产生可以总结如下,对于一个给定节点Fl在第l层,局部属性
Figure BDA0001576017770000163
可以定义为下式:
Figure BDA0001576017770000171
其中
Figure BDA0001576017770000172
为局部权重
Figure BDA0001576017770000173
中的第k个元素,
Figure BDA0001576017770000174
表示第j个簇中心与第k个孩子节点的距离。δ(·)表示符号函数(其值为1如果其中的叙述是正确的,否则为1),hk,j表示节点的赋值变量,具体如式所示:
Figure BDA0001576017770000175
进一步地,将节点的原始向量
Figure BDA0001576017770000176
与上面所得的局部向量
Figure BDA0001576017770000177
进行连接,更新节点原始的向量表示。被更新的节点作为新的节点参与上一层次的节点位置映射、局部感知重构模型的建立。该过程子底向上逐层进行,直至在根节点位置形成统一的向量表示。
步骤S6,基于内容的作者推荐和检索模块:步骤S5中,依照树形结构组织的作者相关信息均已被转化成为统一的向量形式进行表示。使用作者的统一向量表示进行作者的检索和推荐,通过相似度的计算为用户进行相关内容的作者推荐。
图2示出了一种基于聚类算法和局部感知重构模型的作者推荐系统,所述基于聚类算法和局部感知重构模型的作者推荐方法包括:
树形结构表达模块:对于每一位作者,将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息,按照内部逻辑结构信息组织成为“作者简介->书简介->读者评论”的三层作者树结构;
节点特征表达模块:构建词汇表,计算词分布向量,进一步使用主成分分析(Principal Component Analysis,PCA)对各层次节点的词分布向量进行降维、压缩、以便于进一步的模型运算;
层次节点位置映射模块:使用K-means对属于同一层次的节点进行聚类,获取该层次各节点的相对关系信息,进行各层次节点的位置映射;
局部感知重构模型模块:使用孩子节点的信息对其父节点信息进行重构,即建立局部感知重构模型,求解局部感知重构模型并获得局部重构感知系数向量;
树形结构的统一向量表示模块:根据前面步骤所获得的层次节点位置信息、局部感知重构系数向量,将节点的层次位置信息与局部感知重构信息进行融合,获取局部向量表示,更新该节点的特征向量表示。该过程自底向上逐层进行,直至将树形结构表示的作者数据压缩成为统一的向量表示;
基于内容的作者推荐和检索模块:用作者信息的统一向量表示进行作者的检索,通过相似度的计算为用户进行相关内容的作者推荐。
所述树形结构表达模块包括:
“作者简介->书的简介”子树构建:对于一个作者树,将“作者简介”作为根节点,将“书的简介”作为“作者简介”的子节点,构成两层的“作者简介->书的简介”子树;
“作者简介->书的简介->读者评论”作者树构建:对于作者的某一本书,将“书的简介”作为父节点,将“读者评论”作为“书的简介”的字节点,从而构成三层的“作者简介->书的简介->读者评论”作者树。
所述节点特征表达模块包括:
构建词汇表:经过文本分割、去停用词、词根还原、单词纠错等文本预处理操作之后,建立全数据集的词汇表,并对数据集中的电子书进行词频统计;
计算词分布向量:使用词频-逆文档频率(term frequency–inverse documentfrequency,tf-idf)模型计算每个单词的权重,从而获得树结构中各个节点的词分布向量;
特征降维:为了实现计算的可行性,使用主成分分析法(Principal ComponentAnalysis,PCA)对树结构中各个节点加权的词向量进行压缩、降维。
所述层次节点位置映射模块包括:
层次节点聚类:使用K-means算法对来自于同一层次的节点进行聚类,获取若干个聚类中心;
层次节点位置映射:将各个层次的节点分配到其所属的聚类中心,并计算各个节点与其所属聚类中心的距离,获取该层次各个节点的相对位置关系,从而实现各个层次节点的位置映射。
所述局部感知重构模型模块包括:
建立局部感知重构模型:对于树中的某一节点(该节点有孩子节点),使用该节点的孩子节点的信息对该节点的信息进行重构,从而有针对性的衡量一个孩子节点对父节点的信息重构能力;
局部感知重构模型的求解:求解局部感知重构模型,获得局部重构系数向量,重构系数的大小表明该孩子节点对其父节点信息的重构能力,重构系数越大表明该节点对其父节点的重构能力越强。而该作者树的各层信息来自于不同的域,本方法希望获取子节点对父节点的补充信息。因此,对于父节点重构能力较差的孩子节点,由于其与父节点的差异性更大,应该赋予其更大的权重,以此来获取其对父节点的补充信息。
所述树形结构的统一向量表示模块包括:
将每一个节点的位置信息分别乘以相应节点的局部感知重构系数,获取该节点的局部信息表示;
对于属于同一父节点的所有孩子节点,均按照上一步骤操作进行,获取该父节点的局部向量表示。
按照上一步骤的操作自底向上逐层进行,直至将树形结构表示的作者数据压缩成为统一的向量表示。
所述基于内容的作者推荐和检索模块包括:
使用作者信息的统一向量表示进行相关作者的内容检索,通过相似度的计算为用户进行相关内容的作者推荐。
本发明的主要贡献有以下三点:首先,将作者的异构信息依照其逻辑结构关系组织成树形结构进行表达,则既表达了与作者的内容信息,又体现了作者信息间内部结构的层次特征,从而有利于作者信息的表达。其次,提出了层次节点位置映射方法,对来自于同一层次的节点进行聚类,以提取同一层次节点的全局信息。
已存在的类似研究均采用欧式距离函数进行重构误差的衡量,本发明中考虑到余弦距离函数对于文本内容相似性衡量的优越性,提出了使用类-余弦距离函数衡量重构误差,从而有效的提高了树中孩子节点信息对其父节点信息的重构能力。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于聚类算法和局部感知重构模型的作者推荐方法,其特征在于:所述方法包括以下步骤:
A、树形结构表达:对于每一位作者,将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息,按照内部逻辑结构信息组织成为“作者简介->书简介->读者评论”的三层作者树结构;
B、节点特征表达:构建词汇表,计算词分布向量,进一步使用主成分分析(PrincipalComponent Analysis,PCA)对各层次节点的词分布向量进行降维、压缩、以便于进一步的模型运算;
C、层次节点位置映射:使用K-means对属于同一层次的节点进行聚类,计算该层次各节点相对所属类中心的距离,获取各层次节点的位置映射,其中,树的第t个节点到第j个类中心的距离公式为:
Figure FDA0003010571880000011
fi是节点Ft的第i个全局属性,Cj,i是该节点所属类的第i个全局属性,Ft local是节点Ft的局部属性,Cj local表示该节点所属类的局部属性,w为权重系数,D表示局部属性相似性衡量的函数;
D、建立和求解局部感知重构模型:使用孩子节点的信息对其父节点信息进行重构,即建立局部感知重构模型,求解局部感知重构模型并获得局部感知重构系数向量,其中,局部感知重构模型表示为
Figure FDA0003010571880000021
subject to 1Tβ=1,
λ为预先设定的参数,q为局部适应参数,β为局部权重系数,Fi,l G为节点Fl的第i个属性;
E、树形结构的统一向量表示:将孩子节点位置映射和所述孩子节点的父节点局部感知重构系数向量结合,构造所述孩子节点的局部向量;将所述孩子节点的局部向量和所述父节点的特征向量连接,更新所述父节点的特征向量,以供所述父节点向上层节点融合,直至将树形结构所有的节点数据压缩为统一的向量表示;所述孩子节点位于所述父节点下一层;
F、基于内容的作者推荐和检索:用作者信息的统一向量表示进行作者的检索,通过相似度的计算为用户进行相关内容的作者推荐。
2.根据权利要求1所述的基于聚类算法和局部感知重构模型的作者推荐方法,其特征在于:所述步骤A包括以下步骤:
A1、“作者简介->书的简介”子树构建:对于一个作者树,将“作者简介”作为根节点,将“书的简介”作为“作者简介”的子节点,构成两层的“作者简介->书的简介”子树;
A2、“作者简介->书的简介->读者评论”作者树构建:对于作者的某一本书,将“书的简介”作为父节点,将“读者评论”作为“书的简介”的字节点,从而构成三层的“作者简介->书的简介->读者评论”作者树。
3.根据权利要求1所述的基于聚类算法和局部感知重构模型的作者推荐方法,其特征在于:所述步骤B包括以下步骤:
B1、构建词汇表:进行文本预处理操作,建立全数据集的词汇表,并对数据集中的电子书进行词频统计;所述文本预处理操作包括:文本分割、去停用词、词根还原和单词纠错;
B2、计算词分布向量:使用词频-逆文档频率(term frequency–inverse documentfrequency,tf-idf)模型计算每个单词的权重,从而获得树结构中各个节点的词分布向量;
B3、特征降维:使用主成分分析法(Principal Component Analysis,PCA)对树结构中各个节点词分步向量进行压缩、降维。
4.根据权利要求1所述的基于聚类算法和局部感知重构模型的作者推荐方法,其特征在于,所述步骤C包括以下步骤:
C1、层次节点聚类:使用K-means算法对来自于同一层次的节点进行聚类,获取若干个聚类中心;
C2、层次节点位置映射:将各个层次的节点分配到其所属的聚类中心,并计算各个节点与其所属聚类中心的距离,获取该层次各个节点的相对位置关系,从而实现各个层次节点的位置映射。
5.根据权利要求1所述的基于聚类算法和局部感知重构模型的作者推荐方法,其特征在于,所述构造孩子节点的局部向量的方法包括,将所述孩子节点的位置映射乘以所述孩子节点的父节点的局部感知重构系数向量。
6.一种基于聚类算法和局部感知重构模型的作者推荐系统,其特征在于,所述基于聚类算法和局部感知重构模型的作者推荐系统包括:
树形结构表达模块:对于每一位作者,将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息,按照内部逻辑结构信息组织成为“作者简介->书简介->读者评论”的三层作者树结构;
节点特征表达模块:构建词汇表,计算词分布向量,进一步使用主成分分析(PrincipalComponent Analysis,PCA)对各层次节点的词分布向量进行降维、压缩、以便于进一步的模型运算;
层次节点位置映射模块:使用K-means对属于同一层次的节点进行聚类,计算该层次各节点相对所属类中心的距离,获取各层次节点的位置映射,其中,树的第t个节点到第j个类中心的距离公式为:
Figure FDA0003010571880000041
fi是节点Ft的第i个全局属性,Cj,i是该节点所属类的第i个全局属性,Ft local是节点Ft的局部属性,Cj local表示该节点所属类的局部属性,w为权重系数,D表示局部属性相似性衡量的函数;
局部感知重构模型模块:使用孩子节点的信息对其父节点信息进行重构,即建立局部感知重构模型,求解局部感知重构模型并获得局部感知重构系数向量,其中,局部感知重构模型表示为
Figure FDA0003010571880000051
subject to 1Tβ=1,
λ为预先设定的参数,q为局部适应参数,β为局部权重系数,Fi,l G为节点Fl的第i个属性;
树形结构的统一向量表示模块:将孩子节点位置映射和所述孩子节点的父节点局部感知重构系数向量结合,构造所述孩子节点的局部向量;将所述孩子节点的局部向量和所述父节点的特征向量连接,更新所述父节点的特征向量,以供所述父节点向上层节点融合,直至将树形结构所有的节点数据压缩为统一的向量表示;所述孩子节点位于所述父节点下一层;
基于内容的作者推荐和检索模块:用作者信息的统一向量表示进行作者的检索,通过相似度的计算为用户进行相关内容的作者推荐。
7.根据权利要求6所述的基于聚类算法和局部感知重构模型的作者推荐系统,其特征在于:所述树形结构表达模块用于:
“作者简介->书的简介”子树构建:对于一个作者树,将“作者简介”作为根节点,将“书的简介”作为“作者简介”的子节点,构成两层的“作者简介->书的简介”子树;
“作者简介->书的简介->读者评论”作者树构建:对于作者的某一本书,将“书的简介”作为父节点,将“读者评论”作为“书的简介”的字节点,从而构成三层的“作者简介->书的简介->读者评论”作者树。
8.根据权利要求6所述的基于聚类算法和局部感知重构模型的作者推荐系统,其特征在于:所述节点特征表达模块用于:
构建词汇表:进行文本预处理操作,建立全数据集的词汇表,并对数据集中的电子书进行词频统计;所属文本预处理操作包括:文本分割、去停用词、词根还原和单词就错;
计算词分布向量:使用词频-逆文档频率(term frequency–inverse documentfrequency,tf-idf)模型计算每个单词的权重,从而获得树结构中各个节点的词分布向量;
特征降维:使用主成分分析法(Principal Component Analysis,PCA)对树结构中各个节点词分步向量进行压缩、降维。
9.根据权利要求6所述的基于聚类算法和局部感知重构模型的作者推荐系统,其特征在于:所述层次节点位置映射模块用于:
层次节点聚类:使用K-means算法对来自于同一层次的节点进行聚类,获取若干个聚类中心;
层次节点位置映射:将各个层次的节点分配到其所属的聚类中心,并计算各个节点与其所属聚类中心的距离,获取该层次各个节点的相对位置关系,从而实现各个层次节点的位置映射。
CN201810135040.5A 2018-02-09 2018-02-09 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统 Active CN108427723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810135040.5A CN108427723B (zh) 2018-02-09 2018-02-09 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810135040.5A CN108427723B (zh) 2018-02-09 2018-02-09 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统

Publications (2)

Publication Number Publication Date
CN108427723A CN108427723A (zh) 2018-08-21
CN108427723B true CN108427723B (zh) 2021-08-06

Family

ID=63156700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810135040.5A Active CN108427723B (zh) 2018-02-09 2018-02-09 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统

Country Status (1)

Country Link
CN (1) CN108427723B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472286B (zh) * 2018-09-30 2021-10-29 浙江工业大学 基于兴趣度模型与类型因子的高校图书推荐方法
CN109885684B (zh) * 2019-01-31 2022-11-22 腾讯科技(深圳)有限公司 一种类簇处理方法及装置
CN110825823B (zh) * 2019-10-15 2023-04-07 清华大学 一种用于层次化聚类的方法和系统
CN111310712B (zh) * 2020-03-04 2024-02-13 杭州晟元数据安全技术股份有限公司 一种基于指纹词袋特征的快速搜索方法
CN113255801A (zh) * 2021-06-02 2021-08-13 北京字节跳动网络技术有限公司 一种数据处理的方法、装置、计算机设备及存储介质
CN113568999A (zh) * 2021-07-09 2021-10-29 哈尔滨工业大学 一种基于树形结构表示的评审者推荐方法
CN114637873B (zh) * 2022-03-30 2022-12-23 徐州大工电子科技有限公司 基于图像相似性的门窗智能推荐方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923545A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
WO2011044866A1 (de) * 2009-10-12 2011-04-21 Beel Joeran Verfahren und system zum bestimmen einer ähnlichkeit von personen
CN102279929A (zh) * 2010-06-13 2011-12-14 中国科学院电子学研究所 一种基于对象语义树模型的遥感人造地物目标识别方法
CN103838801A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页主题信息抽取方法
CN102902744B (zh) * 2012-09-17 2015-02-11 杭州东信北邮信息技术有限公司 一种图书推荐方法
CN105357583A (zh) * 2015-10-16 2016-02-24 Tcl集团股份有限公司 一种发现智能电视用户兴趣偏好的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100304482B1 (ko) * 1999-09-22 2001-11-02 구자홍 다중 계층구조를 가지는 사용자 선호도 정보구조와 이를 이용한 멀티미디어 정보 서비스 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923545A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
WO2011044866A1 (de) * 2009-10-12 2011-04-21 Beel Joeran Verfahren und system zum bestimmen einer ähnlichkeit von personen
CN102279929A (zh) * 2010-06-13 2011-12-14 中国科学院电子学研究所 一种基于对象语义树模型的遥感人造地物目标识别方法
CN102902744B (zh) * 2012-09-17 2015-02-11 杭州东信北邮信息技术有限公司 一种图书推荐方法
CN103838801A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页主题信息抽取方法
CN105357583A (zh) * 2015-10-16 2016-02-24 Tcl集团股份有限公司 一种发现智能电视用户兴趣偏好的方法和装置

Also Published As

Publication number Publication date
CN108427723A (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN108427723B (zh) 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN106570191B (zh) 基于维基百科的中英文跨语言实体匹配方法
CN109446341A (zh) 知识图谱的构建方法及装置
CN106776562A (zh) 一种关键词提取方法和提取系统
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN103473307B (zh) 跨媒体稀疏哈希索引方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN110046250A (zh) 三嵌入卷积神经网络模型及其文本多分类方法
WO2022156328A1 (zh) 一种融合服务协作关系的Restful类型Web服务聚类方法
CN108710663A (zh) 一种基于本体模型的数据匹配方法及系统
CN105005616B (zh) 基于文本图片特征交互扩充的文本图解方法及系统
US20190387056A1 (en) Irc-infoid data standardization for use in a plurality of mobile applications
CN112925901A (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
Zhu et al. An efficient path computing model for measuring semantic similarity using edge and density
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN114997288A (zh) 一种设计资源关联方法
CN116610818A (zh) 一种输变电工程项目知识库的构建方法及系统
Balsmeier et al. Automated disambiguation of us patent grants and applications
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
Li et al. Cross-Model Hashing Retrieval Based on Deep Residual Network.
CN107861924A (zh) 一种基于局部重构模型的电子书内容表示方法
Zhu et al. Integrating land-cover products based on ontologies and local accuracy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518000 Shenzhen University City, Taoyuan Street, Nanshan District, Shenzhen City, Guangdong Province, Harbin Institute of Technology Campus

Patentee after: Harbin Institute of Technology (Shenzhen)

Address before: 518000 Shenzhen University Harbin Institute of Technology campus, Xili Town, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Harbin Institute of Technology Shenzhen Graduate School

CP03 Change of name, title or address