CN108427723B

CN108427723B - 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统

Info

Publication number: CN108427723B
Application number: CN201810135040.5A
Authority: CN
Inventors: 张海军; 王双
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2021-08-06
Anticipated expiration: 2038-02-09
Also published as: CN108427723A

Abstract

本发明提出了一种基于聚类算法和局部感知重构模型的作者推荐方法及其系统，通过作者相关信息的树形结构表达、节点的特征表达、层次节点的位置映射、局部感知重构模型的建立，将由树形结构表示的作者信息转化为统一的向量表示，该向量包含了作者的相关信息及与作者相关的各层次的结构信息。进一步地，根据作者信息的统一向量表示，进行相关作者的推荐和检索。所述方法包括：A、树形结构表达；B、节点特征表达；C、层次节点位置映射；D、建立和求解局部感知重构模型；E、树形结构的统一向量表示；F、基于内容的作者推荐和检索。

Description

一种基于聚类算法和局部感知重构模型的作者推荐方法和系统

技术领域

本发明属于文本挖掘和推荐系统领域，将异构信息数据按照其内部逻辑结构，组织形成树形结构，通过各层次的聚类及局部感知重构模型，实现有效的树形结构向量表示，所述方法及系统使用来自于不同域的作者信息最原始输入。

背景技术

随着互联网技术的不断推进和发展，网络数据规模日益扩大。数据的来源及数据的组织形式依据不同的应用场景具有多样性。对于每一个用户，与之相关的数据来源具有多样性，如果能够将这些数据进行有效的组织、提取、融合，则最终能够获得与该用户更为全面的信息表示。例如，对于某一作者来说，与该作者相关的不同来源的数据能够体现出与这个作者有关的不同层面的信息。具体地，该作者的背景简介、该作者所著书的简介、读者对该作者所著书的评论信息，能够从不能层面反映该作者的信息，且依据各部分数据集的内在逻辑特征，可以将这三部分数据集组织形成树形结构，从而体现数据的层次关系，有利于层次间信息的相互补充及异构信息的融合。

对于树形结构数据的向量化表示方法，尚未有针对性的研究。在已有的较为相关的工作中，主要是进行树形结构底层信息的低维度映射，从而实现信息的融合，但并未考虑树形结构数据的层次结构特征。因此，针对于树形结构数据，本研究考虑到树形结构数据的结构特征，逐层提取树形结构数据的各层次信息，并自底向上进行逐层的信息融合，最终获得统一结构的向量表示，进一步将形成的向量应用于分类或聚类。

“词袋”模型作为典型的基于全文内容表达的研究方法，该类方法的目的在于获得能够表示整篇文档内容的向量。但该类方法仅依赖于对于文本中词语的词频统计，而忽略了词语的空间分布信息，导致该方法很难区分出词频相似但词语的空间分布有差异的两个样本。因此，为了获得更准确的作者信息的向量表达，在本发明的建模过程中考虑了作者各层次信息的空间特征。

树形结构作为一种有效的数据组织和表达方式，可以体现出数据内部的层次关系和空间结构特征。因此，可以将与作者相关的信息按照“作者简介->书的简介->作者评论”的方式进行组织，形成一棵三层的树形结构，从而体现出作者信息的空间结构特征，在一定程度上弥补“词袋”模型对于文本空间信息的忽略。但按照树形结构进行组织的数据不便于样本间相似度的计算，因此需要对树形结构数据的层次信息进一步的整合，从而形成统一的向量表示，以便于实现进一步的系统推荐。

为了实现树形结构数据的层次信息整合，本发明中提出了一种基于聚类算法和局部感知重构模型的作者推荐系统。对于某一个两层子树，通过K-means聚类算法实现叶子节点信息的位置映射从而保存节点的全局信息,通过使用孩子节点信息重构其父节点信息获取对父节点的补充信息，进而获得该子树的局部向量表示，并更新该父节点的向量表示，该过程自底向上，直至将树形结构数据转化为统一的向量表示，从而使得该向量包含了该树形结构数据的层次信息。

发明内容

本发明的目的在于提供一种基于聚类算法和局部感知重构模型的作者推荐系统，旨在解决现有技术中存在的问题。

本发明通过以下技术方案实现：一种基于聚类算法和局部感知重构模型的作者推荐系统，所述方法包括以下步骤：

A、树形结构表达模块：对于每一位作者，将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息，按照内部逻辑结构信息组织成为“作者简介->书的简介->读者评论”的三层作者树结构；

B、节点特征表达模块：构建词汇表，计算词分布向量，进一步使用主成分分析(Principal Component Analysis，PCA)对各层次节点的词分布向量进行降维、压缩、以便于进一步的模型运算；

C、层次节点位置映射模块：使用K-means对属于同一层次的节点进行聚类，获取该层次各节点的相对关系信息，进行各层次节点的位置映射；

D、局部感知重构模型模块：使用孩子节点的信息对其父节点信息进行重构，即建立局部感知重构模型，求解局部感知重构模型并获得局部感知重构系数向量；

E、树形结构的统一向量表示模块：根据在C、D中获得的层次节点位置信息、局部感知重构系数向量，将节点的层次位置信息与局部感知重构信息进行融合，获取局部向量表示，更新该节点的特征向量表示。该过程自底向上逐层进行，直至将树形结构表示的作者数据压缩成为统一的向量表示；

F、基于内容的作者推荐和检索模块：使用作者信息的统一向量表示进行作者的检索，通过相似度的计算为用户进行相关内容的作者推荐。

作为本发明的进一步改进，所述树形结构表达步骤包括以下步骤：

A1、“作者简介->书的简介”子树构建：对于一个作者树，将“作者简介”作为根节点，将“书的简介”作为“作者简介”的子节点，构成两层的“作者简介->书的简介”子树；

A2、“作者简介->书的简介->读者评论”作者树构建：对于作者的某一本书，将“书的简介”作为父节点，将“读者评论”作为“书的简介”的字节点，从而构成三层的“作者简介->书的简介->读者评论”作者树。

作为本发明的进一步改进，所述节点特征表达步骤包括以下步骤：

B1、构建词汇表：经过文本分割、去停用词、词根还原、单词纠错等文本预处理操作之后，建立全数据集的词汇表，并对数据集中的电子书进行词频统计；

B2、计算词分布向量：使用词频-逆文档频率(term frequency–inverse documentfrequency，tf-idf)模型计算每个单词的权重，从而获得树结构中各个节点的词分布向量；

B3、特征降维：为了实现计算的可行性，使用主成分分析法(Principal ComponentAnalysis，PCA)对树结构中各个节点加权的词向量进行压缩、降维。

作为本发明的进一步改进，所述节点位置映射步骤包括以下步骤：

C1、层次节点聚类：使用K-means算法对来自于同一层次的节点进行聚类，获取若干个聚类中心；

C2、层次节点位置映射：将各个层次的节点分配到其所属的聚类中心，并计算各个节点与其所属聚类中心的距离，获取该层次各个节点的相对位置关系，从而实现各个层次节点的位置映射。

作为本发明的进一步改进，所述局部感知重构模型表示步骤包括以下步骤：

D1、建立局部感知重构模型：对于树中的某一节点(该节点有孩子节点)，使用该节点的孩子节点的信息对该节点的信息进行重构，从而有针对性的衡量一个孩子节点对父节点的信息重构能力；

D2、局部感知重构模型的求解：求解局部感知重构模型，获得局部重构系数向量，重构系数的大小表明该孩子节点对其父节点信息的重构能力，重构系数越大表明该节点对其父节点的重构能力越强。而该作者树的各层信息来自于不同的域，本方法希望获取子节点对父节点的补充信息。因此，对于父节点重构能力较差的孩子节点，由于其与父节点的差异性更大，应该赋予其更大的权重，以此来获取其对父节点的补充信息。

作为本发明的进一步改进，所述树形结构的统一向量表示步骤包括以下步骤：

E1、将C2中的每一个节点的位置信息分别乘以D2中相应节点的局部感知重构系数，获取该节点的局部信息表示；

E2、对于属于同一父节点的所有孩子节点，均按照E1进行操作，获取该父节点的局部向量表示。

E3、对于E2中的操作自底向上逐层进行，直至将树形结构表示的作者数据压缩成为统一的向量表示。

作为本发明的进一步改进，所述基于内容的作者推荐和检索步骤包括以下步骤：

F1、使用作者信息的统一向量表示进行相关作者的内容检索，通过相似度的计算为用户进行相关内容的作者推荐。

本发明的另一目的在于提供一种基于聚类算法和局部感知重构模型的作者推荐系统，所述基于聚类算法和局部感知重构模型的作者推荐系统包括：

树形结构表达模块：对于每一位作者，将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息，按照内部逻辑结构信息组织成为“作者简介->书的简介->读者评论”的三层作者树结构；

节点特征表达模块：构建词汇表，计算词分布向量，进一步使用主成分分析(Principal Component Analysis，PCA)对各层次节点的词分布向量进行降维、压缩、以便于进一步的模型运算；

层次节点位置映射模块：使用K-means对属于同一层次的节点进行聚类，获取该层次各节点的相对关系信息，进行各层次节点的位置映射；

局部感知重构模型模块：使用孩子节点的信息对其父节点信息进行重构，即建立局部感知重构模型，求解局部感知重构模型并获得局部感知重构系数向量；

树形结构的统一向量表示模块：根据上述操作所获得的层次节点位置信息、局部感知重构系数向量，将节点的层次位置信息与局部感知重构信息进行融合，获取局部向量表示，更新该节点的特征向量表示。该过程自底向上逐层进行，直至将树形结构表示的作者数据压缩成为统一的向量表示；

基于内容的作者推荐和检索模块：使用作者信息的统一向量表示进行作者的检索，通过相似度的计算为用户进行相关内容的作者推荐。

作为本发明的进一步改进，所述树形结构表达模块包括：

“作者简介->书的简介”子树构建：对于一个作者树，将“作者简介”作为根节点，将“书的简介”作为“作者简介”的子节点，构成两层的“作者简介->书的简介”子树；

“作者简介->书的简介->读者评论”作者树构建：对于作者的某一本书，将“书的简介”作为父节点，将“读者评论”作为“书的简介”的字节点，从而构成三层的“作者简介->书的简介->读者评论”作者树。

作为本发明的进一步改进，所述节点特征表达模块包括：

构建词汇表：经过文本分割、去停用词、词根还原、单词纠错等文本预处理操作之后，建立全数据集的词汇表，并对数据集中的电子书进行词频统计；

计算词分布向量：使用词频-逆文档频率(term frequency–inverse documentfrequency，tf-idf)模型计算每个单词的权重，从而获得树结构中各个节点的词分布向量；

特征降维：为了实现计算的可行性，使用主成分分析法(Principal ComponentAnalysis，PCA)对树结构中各个节点加权的词向量进行压缩、降维。

作为本发明的进一步改进，所述层次节点位置映射模块包括：

层次节点聚类：使用K-means算法对来自于同一层次的节点进行聚类，获取若干个聚类中心；

层次节点位置映射：将各个层次的节点分配到其所属的聚类中心，并计算各个节点与其所属聚类中心的距离，获取该层次各个节点的相对位置关系，从而实现各个层次节点的位置映射。

作为本发明的进一步改进，所述局部感知重构模型模块包括：

建立局部感知重构模型：对于树中的某一节点(该节点有孩子节点)，使用该节点的孩子节点的信息对该节点的信息进行重构，从而有针对性的衡量一个孩子节点对父节点的信息重构能力；

局部感知重构模型的求解：求解局部感知重构模型，获得局部重构系数向量，重构系数的大小表明该孩子节点对其父节点信息的重构能力，重构系数越大表明该节点对其父节点的重构能力越强。而该作者树的各层信息来自于不同的域，本方法希望获取子节点对父节点的补充信息。因此，对于父节点重构能力较差的孩子节点，由于其与父节点的差异性更大，应该赋予其更大的权重，以此来获取其对父节点的补充信息。

作为本发明的进一步改进，所述树形结构的统一向量表示模块包括：

将每一个节点的位置信息分别乘以相应节点的局部感知重构系数，获取该节点的局部信息表示；

对于属于同一父节点的所有孩子节点，均按照上一步进行操作，获取该父节点的局部向量表示。

对于上一步中的操作自底向上逐层进行，直至将树形结构表示的作者数据压缩成为统一的向量表示。

作为本发明的进一步改进，所述基于内容的作者推荐和检索包括：

使用作者信息的统一向量表示进行相关作者的内容检索，通过相似度的计算为用户进行相关内容的作者推荐。

本发明的有益效果是：本发明提供的基于聚类算法和局部感知重构模型的作者推荐系统，将异构的作者信息按照“作者简介->书的简介->读者评论”的形式组织成三层的树形结构，与传统的“词袋”模型相比可以体现出文本信息的层次结构，有利于进一步增强作者信息的向量表示。为了实现树形结构数据的层次信息整合，本发明中提出了一种基于聚类算法和局部感知重构模型的作者推荐系统。对于某一个两层子树，通过K-means聚类算法实现叶子节点信息的位置映射从而保存节点的全局信息,通过使用孩子节点信息重构其父节点信息获取对父节点的补充信息，进而获得该子树的局部向量表示，并更新该父节点的向量表示，该过程自底向上，直至将树形结构数据转化为统一的向量表示，从而使得该向量包含了该树形结构数据的层次信息。进一步地，实现相关内容的作者检索和推荐。

附图说明

图1是本发明的基于聚类算法和局部感知重构模型的作者推荐系统研究的流程图；

图2是本发明的基于聚类算法和局部感知重构模型的作者推荐系统研究的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的基于聚类算法和局部感知重构模型的作者推荐系统研究。本发明的主要创新的工作为以下六个部分：1)树形结构表达模块；2)节点特征表达模块；3)层次节点位置映射模块；4)局部感知重构模型；5)树形结构的统一向量表示；6)基于内容的作者推荐和检索。第一部分是对作者的相关信息进行组织，将作者的相关信息组织形成“作者简介->书的简介->读者评论”的三层树形结构。第二部分进行节点的特征表达，构建词汇表，计算词分布向量，并使用主成分分析(Principal Component Analysis，PCA)进行特征的降维、压缩。第三部分使用K-means聚类算法，将来自于同一层次的节点进行位置映射，获取属于同一层次节点的全局信息。第四部分使用局部感知重构模型，使用孩子节点信息重构其父节点信息获取对父节点的补充信息。第五部分将层次节点位置信息、局部感知重构系数向量，将节点的层次位置信息与局部感知重构信息进行融合，获取局部向量表示，更新该节点的特征向量表示。该过程自底向上逐层进行，直至将树形结构表示的作者数据压缩成为统一的向量表示。第六部分将作者信息的统一向量表示用于相关作者的内容检索，通过相似度的计算为用户进行相关内容的作者推荐。

图1示出了本发明提供的基于聚类算法和局部感知重构模型的作者推荐系统的流程图，其详述如下：

步骤S1，树形结构表模块：对于每一位作者，将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息，按照内部逻辑结构信息组织成为“作者简介->书的简介->读者评论”的三层作者树结构。具体步骤如下：

首先，进行“作者简介->书的简介”子树的构建。对于一个作者树，将“作者简介”作为根节点，将“书的简介”作为“作者简介”的子节点，构成两层的“作者简介->书的简介”子树；

进一步地，进行“作者简介->书的简介->读者评论”作者树的构建。对于作者的某一本书，将“书的简介”作为父节点，将“读者评论”作为“书的简介”的字节点，从而构成三层的“作者简介->书的简介->读者评论”作者树。

步骤S2，节点特征表达：对由“作者简介->书的简介->读者评论”三层树形结构组织的作者信息进行特征表达，既对树中节点所对应的内容进行信息提取，将所有节点的特征表达映射到相同的语义空间。具体步骤如下：

(S21)构建词汇表：

文本分割：为了进行关键词的提取，首先需要进行文本分割。因为本发明涉及的文本均为英文文本，故只需要将文本内的标点符号去除，并按照空格进行分割。

去停用词：对于一些使用较频繁但没有实际含义的单词进行剔除，如“a”、“the”、“are”等。

词根还原：英语中的单词存在很多形式，如动词、名词、单复数变化等。因此需要对于单词进行词根还原，如“read”、“reads”、“reading”等，在本发明中均被认为同一词语。

单词纠错：在文本抽取过程中可能存在单词错误的地方，所以需要进行单词纠错。

词汇表构建：经过上述预处理步骤之后，统计并保存还原后的单词的词频(termfrequency,tf)、文本频率(document frequency，df)、f_u ^t(在所有文档中第u个单词的词频)、

(第u个单词出现的文档的总个数)。进一步地，本发明仅保留出现频率超过5次的单词，从而构建最终的词汇表。

(S22)计算词分布向量：

使用上一步确定的词汇表，对树中各个节点所对应的内容进行词频统计获得词频分布向量，进一步的使用词频-逆文档频率(term frequency–inverse documentfrequency，tf-idf)模型计算每个单词的权重，从而获得树结构中各个节点的加权词分布向量。

对于树中的根节点，即表示作者树的“作者简介”节点，其词分布向量可表示为，其中

n_v表示词汇表中的第v个单词出现的次数，T_author表示所建立的词汇表的长度。同理，树中的“书的简介”和“作者评论”节点的词分布向量可分别表示为：

和

使用词频-逆文档频率(term frequency–inverse document frequency，tf-idf)模型进行加权的词分布向量计算。对于“作者简介”节点，其加权的词分布向量可以表示为：

其中

N_author为数据集中作者简介的个数。同理，可以得到H^book和H^comment。

(S23)特征降维：

在S23中得到的词分布向量，其维度为T_author即词汇表的长度,该值通常较大。而在实际应用中，维度过大的特征向量不利于建模过程中的计算及相似度的衡量，因此使用主成分分析(Principal Component Analysis，PCA)进行特征降维。

使用PCA将节点的词分布向量映射到一个维度更低的特征向量，可以表示为：

F_h＝H×B

其中，B表示使用数据集中顶层节点(即“作者简介”)的内容通过PCA求解得到的映射矩阵，其维度为T_comment×m_F，m_F为词分布向量经映射矩阵B压缩后所得的特征向量的维度，树中三个层次的节点压缩后保留相同维度的特征向量，即均为m_F；H表示在S22中得到的词分布向量，可以是H^author或H^book或H^comment；F_h表示词分布向量H经映射矩阵B压缩后所得的特征向量。

步骤S3，使用K-means对来自于同一层次的节点进行位置映射，保存该层次节点的全局信息。具体步骤如下：

对于树中第l层的节点属性向量为F_l，其中l＝1,2,…,L^e-1,其中L^e表示树的深度。具体地可表示为

其中

为节点F_l的第i个属性，

表示F_l的第j个局部属性。集合

表式节点F_l自身的属性，

表示由其孩子节点获得的局部属性。局部属性

通过K-means获取树形结构数据的空间层次分布信息。当K-means迭代收敛后，得到c个簇中心。进一步的，确定各个节点所属的类，并计算该节点到其所属簇中心的距离，则得到每一个节点的位置映射，既到了该层的全局信息。具体的距离计算公式为：

用来衡量树的第t个节点到第j个类中心的距离，

分别表示该节点及其所属类的局部属性，w为权重，用于平衡节点属性与孩子节点的位置属性。D表示用于局部属性相似性衡量的函数，根据具体应用的不同而决定。常见的有欧式距离，夹角余弦距离等。

对于树形结构的每一层，输入所有来自于同一层次节点的特征向量{F_i}进入K-means用于聚类。每一层K-means的聚类个数是由其上层节点的特征向量的维数确定的。在每一层聚类结束之后，每个节点被分派到一个簇中。在实际应用中，每个节点属性的维度通常大于其孩子节点的个数，一个节点通常会包含很多个孩子节点，在节点位置映射过程中，会有多个节点映射到同一个位置。因此，

可能包含一些0元素。本方法采用了一种节点映射过程，将每一个节点映射到相应的簇中。给定一个树T_i中的节点的集合，

表示树T_i中的第n个节点的孩子节点集合，其中I₁和I₂表示分别表示节点v的最小节点索引和最大节点索引。c_j(j＝1,2,...,c_max)表示第j个簇的中心，c_max表示指定层次的簇的个数。N_j为从V_i,n映射到第j个簇的个数。具体节点位置映射算法如算法1所示。

算法1节点位置映射算法

步骤S4，对于任意一个二层子树，构建局部感知重构模型，使用孩子节点信息对父节点信息进行重构，求解局部感知重构模型，获取该父节点的补充信息，实现节点信息的增强表达。具体步骤如下：

对同一节点的多个子节点进行信息重构，建立局部感知重构(Local SensitiveReconstruction，LSR)模型，从而有针对性的衡量一个孩子节点对父节点的信息重构能力。而实际上，各层次节点信息是异源的，因此希望通过子节点得到与父节点本身更不相同的信息。因此，对于父节点重构能力较差的孩子节点，由于其与父节点的差异性更大，本方法赋予其更大的权重，以此来补充父节点的信息。

具体地，局部感知重构模型可表示为：

subject to 1^Tβ＝1

为了求解上述局部感知重构模型，获取重构模型中的局部权重，需要构建拉格朗日函数L(β,μ)：

为了求解上述拉格朗日函数L(β,μ)，需要将其转换为：

L(β,μ)＝β^TΓβ+λβ^Tdiag(q)²β+μ(1^Tβ-1)

其中，

diag(q)是一个对角矩阵，其每个非零元素值为p_i。

进一步地，令

则有式：

2(Γ+λdiag(q)²)β+μ1＝0

对上式两边分别乘以1^T(Γ+λdiag(q)²)^-1/2，可得μ＝-2(1^T(Γ+λdiag(q)²)^-11)^-1。将μ带入上式，可得局部感知权重的解析解如下式所示：

Λ＝(Γ+λdiag(q)²)^-11，

β＝Λ/(1^TΛ)

而在该局部重构模型是为了获得孩子节点与其父节点的差异信息，从而对其父节点信息进行补充，因此最终的局部感知权重应为下式所示：

其中，

为最终的局部权重，每一维的数值越大，表明其相应的孩子节点对父节点信息的补充能力越强。

步骤S5，将由步骤S3所获得的层次位置信息与由步骤S4所获得的局部感知重构信息进行融合，获取局部向量表示，更新该节点的特征向量表示。该过程自底向上逐层进行，直至将树形结构表示的作者数据压缩成为统一的向量表示。具体步骤如下：

对于任意一个二层子树，构建局部感知重构模型，使用孩子节点信息对父节点信息进行重构，求解局部感知重构模型，获取该父节点的补充信息，实现节点信息的增强表达。具体步骤如下：

根据S3所获得的层次位置信息与由步骤S4所获得的局部感知重构信息，局部向量的产生可以总结如下，对于一个给定节点F_l在第l层，局部属性

可以定义为下式：

其中

为局部权重

中的第k个元素,

表示第j个簇中心与第k个孩子节点的距离。δ(·)表示符号函数(其值为1如果其中的叙述是正确的，否则为1)，h_k,j表示节点的赋值变量，具体如式所示：

进一步地，将节点的原始向量

与上面所得的局部向量

进行连接，更新节点原始的向量表示。被更新的节点作为新的节点参与上一层次的节点位置映射、局部感知重构模型的建立。该过程子底向上逐层进行，直至在根节点位置形成统一的向量表示。

步骤S6，基于内容的作者推荐和检索模块：步骤S5中，依照树形结构组织的作者相关信息均已被转化成为统一的向量形式进行表示。使用作者的统一向量表示进行作者的检索和推荐，通过相似度的计算为用户进行相关内容的作者推荐。

图2示出了一种基于聚类算法和局部感知重构模型的作者推荐系统，所述基于聚类算法和局部感知重构模型的作者推荐方法包括：

树形结构表达模块：对于每一位作者，将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息，按照内部逻辑结构信息组织成为“作者简介->书简介->读者评论”的三层作者树结构；

局部感知重构模型模块：使用孩子节点的信息对其父节点信息进行重构，即建立局部感知重构模型，求解局部感知重构模型并获得局部重构感知系数向量；

树形结构的统一向量表示模块：根据前面步骤所获得的层次节点位置信息、局部感知重构系数向量，将节点的层次位置信息与局部感知重构信息进行融合，获取局部向量表示，更新该节点的特征向量表示。该过程自底向上逐层进行，直至将树形结构表示的作者数据压缩成为统一的向量表示；

基于内容的作者推荐和检索模块：用作者信息的统一向量表示进行作者的检索，通过相似度的计算为用户进行相关内容的作者推荐。

所述树形结构表达模块包括：

所述节点特征表达模块包括：

所述层次节点位置映射模块包括：

所述局部感知重构模型模块包括：

所述树形结构的统一向量表示模块包括：

对于属于同一父节点的所有孩子节点，均按照上一步骤操作进行，获取该父节点的局部向量表示。

按照上一步骤的操作自底向上逐层进行，直至将树形结构表示的作者数据压缩成为统一的向量表示。

所述基于内容的作者推荐和检索模块包括：

本发明的主要贡献有以下三点：首先，将作者的异构信息依照其逻辑结构关系组织成树形结构进行表达，则既表达了与作者的内容信息，又体现了作者信息间内部结构的层次特征，从而有利于作者信息的表达。其次，提出了层次节点位置映射方法，对来自于同一层次的节点进行聚类，以提取同一层次节点的全局信息。

已存在的类似研究均采用欧式距离函数进行重构误差的衡量，本发明中考虑到余弦距离函数对于文本内容相似性衡量的优越性，提出了使用类-余弦距离函数衡量重构误差，从而有效的提高了树中孩子节点信息对其父节点信息的重构能力。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于聚类算法和局部感知重构模型的作者推荐方法，其特征在于：所述方法包括以下步骤：

A、树形结构表达：对于每一位作者，将作者的背景信息、作者所著书的简介信息、每一本书的作者评论信息，按照内部逻辑结构信息组织成为“作者简介->书简介->读者评论”的三层作者树结构；

B、节点特征表达：构建词汇表，计算词分布向量，进一步使用主成分分析(PrincipalComponent Analysis，PCA)对各层次节点的词分布向量进行降维、压缩、以便于进一步的模型运算；

C、层次节点位置映射：使用K-means对属于同一层次的节点进行聚类，计算该层次各节点相对所属类中心的距离，获取各层次节点的位置映射，其中，树的第t个节点到第j个类中心的距离公式为：

f_i是节点F_t的第i个全局属性，C_j,i是该节点所属类的第i个全局属性，F_t ^local是节点F_t的局部属性，C_j ^local表示该节点所属类的局部属性，w为权重系数，D表示局部属性相似性衡量的函数；

D、建立和求解局部感知重构模型：使用孩子节点的信息对其父节点信息进行重构，即建立局部感知重构模型，求解局部感知重构模型并获得局部感知重构系数向量，其中，局部感知重构模型表示为

subject to 1^Tβ＝1，

λ为预先设定的参数，q为局部适应参数，β为局部权重系数，F_i,l ^G为节点F_l的第i个属性；

E、树形结构的统一向量表示：将孩子节点位置映射和所述孩子节点的父节点局部感知重构系数向量结合，构造所述孩子节点的局部向量；将所述孩子节点的局部向量和所述父节点的特征向量连接，更新所述父节点的特征向量，以供所述父节点向上层节点融合，直至将树形结构所有的节点数据压缩为统一的向量表示；所述孩子节点位于所述父节点下一层；

F、基于内容的作者推荐和检索：用作者信息的统一向量表示进行作者的检索，通过相似度的计算为用户进行相关内容的作者推荐。

2.根据权利要求1所述的基于聚类算法和局部感知重构模型的作者推荐方法，其特征在于：所述步骤A包括以下步骤：

3.根据权利要求1所述的基于聚类算法和局部感知重构模型的作者推荐方法，其特征在于：所述步骤B包括以下步骤：

B1、构建词汇表：进行文本预处理操作，建立全数据集的词汇表，并对数据集中的电子书进行词频统计；所述文本预处理操作包括：文本分割、去停用词、词根还原和单词纠错；

B3、特征降维：使用主成分分析法(Principal Component Analysis，PCA)对树结构中各个节点词分步向量进行压缩、降维。

4.根据权利要求1所述的基于聚类算法和局部感知重构模型的作者推荐方法，其特征在于，所述步骤C包括以下步骤：

5.根据权利要求1所述的基于聚类算法和局部感知重构模型的作者推荐方法，其特征在于，所述构造孩子节点的局部向量的方法包括，将所述孩子节点的位置映射乘以所述孩子节点的父节点的局部感知重构系数向量。

6.一种基于聚类算法和局部感知重构模型的作者推荐系统，其特征在于，所述基于聚类算法和局部感知重构模型的作者推荐系统包括：

节点特征表达模块：构建词汇表，计算词分布向量，进一步使用主成分分析(PrincipalComponent Analysis，PCA)对各层次节点的词分布向量进行降维、压缩、以便于进一步的模型运算；

层次节点位置映射模块：使用K-means对属于同一层次的节点进行聚类，计算该层次各节点相对所属类中心的距离，获取各层次节点的位置映射，其中，树的第t个节点到第j个类中心的距离公式为：

局部感知重构模型模块：使用孩子节点的信息对其父节点信息进行重构，即建立局部感知重构模型，求解局部感知重构模型并获得局部感知重构系数向量，其中，局部感知重构模型表示为

subject to 1^Tβ＝1，

树形结构的统一向量表示模块：将孩子节点位置映射和所述孩子节点的父节点局部感知重构系数向量结合，构造所述孩子节点的局部向量；将所述孩子节点的局部向量和所述父节点的特征向量连接，更新所述父节点的特征向量，以供所述父节点向上层节点融合，直至将树形结构所有的节点数据压缩为统一的向量表示；所述孩子节点位于所述父节点下一层；

7.根据权利要求6所述的基于聚类算法和局部感知重构模型的作者推荐系统，其特征在于：所述树形结构表达模块用于：

8.根据权利要求6所述的基于聚类算法和局部感知重构模型的作者推荐系统，其特征在于：所述节点特征表达模块用于：

构建词汇表：进行文本预处理操作，建立全数据集的词汇表，并对数据集中的电子书进行词频统计；所属文本预处理操作包括：文本分割、去停用词、词根还原和单词就错；

特征降维：使用主成分分析法(Principal Component Analysis，PCA)对树结构中各个节点词分步向量进行压缩、降维。

9.根据权利要求6所述的基于聚类算法和局部感知重构模型的作者推荐系统，其特征在于：所述层次节点位置映射模块用于：