CN112990430B - 基于长短时记忆网络的群组划分方法及系统 - Google Patents

基于长短时记忆网络的群组划分方法及系统 Download PDF

Info

Publication number
CN112990430B
CN112990430B CN202110182959.1A CN202110182959A CN112990430B CN 112990430 B CN112990430 B CN 112990430B CN 202110182959 A CN202110182959 A CN 202110182959A CN 112990430 B CN112990430 B CN 112990430B
Authority
CN
China
Prior art keywords
user
similarity
time
behavior information
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110182959.1A
Other languages
English (en)
Other versions
CN112990430A (zh
Inventor
梅红岩
许晓明
刘鑫
李凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University of Technology
Original Assignee
Liaoning University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University of Technology filed Critical Liaoning University of Technology
Priority to CN202110182959.1A priority Critical patent/CN112990430B/zh
Publication of CN112990430A publication Critical patent/CN112990430A/zh
Application granted granted Critical
Publication of CN112990430B publication Critical patent/CN112990430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于长短时记忆网络的群组划分方法及系统,其中的方法包括:根据用户历史行为信息进行时序性建模,以形成时序性数据序列;通过预设的长短时记忆网络模型对所述时序性数据序列进行特征提取,以获取用户随时间迁移的行为特征信息;根据所述用户随时间迁移的行为特征信息确定用户隐式相似度;根据用户显式相似度和所述用户隐式相似度对用户相似度进行求和,将相似度高的成员划分在同一群组。本发明通过循环神经网络进行用户隐式倾向获取,根据用户总体倾向对用户进行分组,解决了用户动态倾向导致用户分组不准确问题。

Description

基于长短时记忆网络的群组划分方法及系统
技术领域
本发明涉及群组推荐技术领域,更为具体地,涉及一种基于长短时记忆网络的群组划分方法及系统。
背景技术
群组推荐是满足群组用户个性和共性需求的一种服务形式,它作为解决推荐问题的一种有效手段,在学术领域中得到了越来越多的关注。
群组划分是群组推荐的第一个环节,它的结果对后续偏好融合及预测推荐产生重要影响。传统的群组划分技术分为随机分组、相似度计算和聚类三种,随着数据相关属性的丰富及对推荐结果越来越精确的要求,群组划分需要考虑的因素越来越多,从传统的组大小、组内凝聚力、关联强度等逐渐向数据集属性和相应应用场景上偏移。在这种高要求下,越来越多的学者开始针对特定数据集或推荐要求,进行群组划分方法的创新和改进。
比如针对广播用户收视兴趣复合性问题,使用张量分解对节目和收视时间的隐性特征进行挖掘并形成矩阵,基于马尔可夫聚类算法对记录进行分类,基于记录的分类结果实现家庭用户群组划分;再比如Ntoutsi等人提出的聚类算法,将每个用户单独设定为一个群组,通过比较每个用户群组的内在相似度并进行排序,对相似度最高的两个群组,将二者相似度与设定的相似度阈值进行比较,超出设定阈值便进行合并,重复计算直至相似度超过阈值的用户划入同一个群组为止;以及通过计算推荐信息与群组兴趣之间的相似度,构建群组兴趣模型,生成群组,在科研咨询和领域检测快报方面完成自动精确推荐的群组划分方法。
上述群组划分方法在一定程度上聚合了相似的成员形成群组,有效地提高了群组推荐结果的精度,但对用户倾向的获取上,没有对用户倾向的影响因素进行挖掘和纳入计算范围,存在一定缺陷。
发明内容
鉴于上述问题,本发明的目的是提供一种基于长短时记忆网络的群组划分方法及系统。
根据本发明的一个方面,提供了一种基于长短时记忆网络的群组划分方法,包括:
根据用户历史行为信息进行时序性建模,以形成时序性数据序列;
通过预设的长短时记忆网络模型对所述时序性数据序列进行特征提取,以获取用户随时间迁移的行为特征信息,并根据所述用户随时间迁移的行为特征信息确定用户隐式相似度;
根据用户显式相似度和所述用户隐式相似度对用户进行群组划分。
根据本发明的另一方面,提供了一种基于长短时记忆网络的群组划分系统,其特征在于,包括:
时序性建模单元,用于根据用户历史行为信息进行时序性建模,以形成时序性数据序列;
LSTM单元,用于通过预设的长短时记忆网络模型对所述时序性数据序列进行特征提取,以获取用户随时间迁移的行为特征信息,并根据所述用户随时间迁移的行为特征信息确定用户隐式相似度;
群组划分单元,用于根据用户显式相似度和所述用户隐式相似度对用户进行群组划分。
利用上述根据本发明的提出的基于长短时记忆网络的群组划分方法及系统,一方面通过循环神经网络进行用户隐式倾向获取,根据用户总体倾向对用户进行分组,解决了用户动态倾向导致用户分组不准确问题;另一方面,应用深度学习方法处理不同类型的数据,神经网络的构建解决了数据稀疏性问题,同时对用户的隐层次倾向和项目的隐层次关系进行挖掘。本发明在传统群组发现的获取用户显式信息基础上对用户可能出现的动态倾向和隐层次倾向进行挖掘,并依据长短时记忆网络的结果对不同特征的用户进行聚类以完成群组划分,能够有效聚集更相似的用户形成群组,以达到优化推荐结果的目的。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1示出了根据本发明的基于长短时记忆网络的群组划分方法的流程图;以及
图2示出了根据本发明的基于长短时记忆网络的群组划分系统的方框示意图;
图3示出了LSTM的内部架构;
图4为根据本发明实施例的电子设备的结构示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
为了更好的说明本发明的技术方案,下面先就本发明涉及的部分基础理论做简要说明。
长短时记忆网络(LSTM,Long Short-Term Memory)是一种时间递归神经网络,擅长处理时间序列数据。与传统的递归神经网络RNN相比,LSTM由于引入了记忆单元,该记忆单元能够决定哪些状态应该被留下来,哪些状态应该被遗忘,因此能够处理长期依赖问题。LSTM由输入层、隐含层和输出层构成,图3示出了LSTM的内部架构。
如图3所示,该网络结构在隐藏层中加入了先验知识:输入门、遗忘门和输出门,这些门将不同时刻的层间信息与某一时刻的输入信息处理的更加透明。LSTM网络具有2个输入,一个来自前一时刻的输出,一个来自当前时刻的输入。因此,在LSTM网络中隐含这样一个假设,在某一时刻的LSTM网络中,当前时刻状态依赖于前一时刻的状态。基于这种特性,LSTM多被用于处理带时间序列或存在时序性数据的特征提取或文本分析,在个性化推荐系统中常被用作处理用户历史行为信息或辅助信息的一种有效手段。
本发明基于LSTM对时序性数据的处理优势,在于构建一种基于LSTM的群组划分框架,利用LSTM对用户的历史行为信息进行特征提取后,将特征属性引入迭代框架,对用户进行聚类后得到最终的群组划分结果。
在实际生活中,随着时间的推移,项目的增多和社交关系的变化,用户的倾向会进行动态的改变。在量化用户倾向时,一方面需要考虑由用户反馈信息提取出的用户显式倾向,另一方面也需要考虑用户倾向有可能受到的影响因素。本发明提出的基于长短时记忆网络的群组划分方法,首先考虑到用户倾向的时间迁移性,将用户倾向分为由用户显式信息直接计算得到的用户显式倾向和带时间迁移性的用户隐式倾向;针对带时间迁移性的用户隐式倾向,提出一种基于长短时记忆网络的群组划分框架,通过建模用户行为及项目特征的时间序列,获取用户的隐式倾向;结合用户显隐式倾向及项目的隐式关系进行聚类,使相似度高的用户被聚合在同一群组中,完成群组划分。
以下将结合附图对本发明的具体实施例进行详细描述。
图1示出了根据本发明的基于长短时记忆网络的群组划分方法的流程图。
如图1所示,本发明提供的基于长短时记忆网络的群组划分方法,包括如下步骤:
S110:时序性数据建模步骤,根据用户历史行为信息进行时序性建模,以形成时序性数据序列;
S120:用户隐式相似度获取步骤,通过预设的长短时记忆网络模型对所述时序性数据序列进行特征提取,以获取用户随时间迁移的行为特征信息,并根据所述用户随时间迁移的行为特征信息确定用户隐式相似度;
S130:群组划分步骤,根据用户显式相似度和所述用户隐式相似度对用户进行群组划分。
其中,在根据用户历史行为信息进行时序性建模之前,还包括数据清洗步骤:对包含用户的历史活动信息的基础数据集进行数据清洗,以提取多维度的用户历史行为信息,这里的多维度主要体现在该用户历史行为信息包括用户维度、项目维度及用户-项目评分。该用户历史行为信息至少包括用户画像、项目的内容、项目的评分及相关辅助信息,该辅助信息主要包括数据集中的相关时间信息、顺序信息等。
多维度的用户历史行为信息,实际上是对数据的一个整理行为,对多维度的用户历史行为信息的提取需要得到用户画像以及带有时间的项目评分行为数据、项目的属性等信息,以便后续用户隐式相似度和用户显式相似度的计算。在计算显式相似度的时候利用用户评分数据形成评分矩阵,利用评分矩阵进行用户间两两相似度计算,利用项目属性构成项目属性矩阵,计算用户对项目的偏好程度。在计算隐式相似度时,根据评分和项目内容进行时序性建模,提取隐式特征,然后根据所提取的隐式特征进行隐式相似度计算。
在数据清洗之后,即可以进行用户显式相似度的计算。
在群组划分中常用的相似度计算方法有三种:余弦相似度、修正的余弦相似度以及皮尔森相关相似性。在本发明的一个具体实施方式中,根据用户显式信息计算用户显式相似度,此处的用户显式信息主要指用户的历史项目评分,通过将用户历史项目评分构成一个评分矩阵,利用评分矩阵进行两两余弦相似度计算用户显式相似度。
首先,将用户评分矩阵看作空间上的向量,通过用户评分矩阵的向量空间余弦夹角值来表示用户之间的相似度,即夹角越小,余弦值越大,用户相似度越高,比如,用户u和v之间的相似度Sim_out(u,v)为:
Figure BDA0002941858750000051
其中:Rui、Rvi分别表示用户u、用户v对项目i的评分,Iu、Iv分别表示用户u和用户v的所有评分项目集;
其次,计算用户对项目的偏好程度,这里主要通过计算项目类型的偏好程度来推测用户对项目的偏好程度,比如,用户u对项目i的偏好程度计算公式为:
Wui=Rui×W_tag(ui,T)
其中,T为项目i所有类别的兴趣度列表,W_tag(ui,T)表示用户u对项目i的感兴趣程度,计算公式为:
Figure BDA0002941858750000061
其中,Tx表示第x个属性的兴趣度,
Figure BDA0002941858750000062
表示x属性的值tx出现的次数,Countt代表用户所有评分的带有t数据的项目数。
之后计算用户的偏好相似度,计算公式如下:
Figure BDA0002941858750000063
最后,计算用户显式相似度Sim(u,v),计算公式为:
Sim(u,v)=α×Sim_out(u,v)+β×Sim_intest(u,v)+(1-α-β)×Sim_out(u,v)×Sim_intest(u,v)
其中α和β是权重值,取值0~1。可以通过调整α和β的取值,使用户显式相似度sim(u,v)的结果最优。
在时序性数据建模步骤中,由于LSTM的输入需要是以T为时间长度,n个样本组成的数据。但实际数据集中,用户的历史行为信息往往存在稀疏性,并不能够按照传统长短时记忆网络模型的时序序列进行处理。因此,针对这一问题,本发明提出对用户的历史行为信息进行时序性建模的群组划分方案。
首先,将用户的历史行为信息按时间排序,形成用户初始行为序列H.用户a的用户初始行为序列Ha为
Ha=[p1a,p2a,p3a,p4a,p5a,…,pna]
其中pna表示用户a的第n个行为信息,包括用户评分、项目名、项目类型等信息。
很明显,用户初始行为序列的长度并不一致,针对这种情况,分别计算每一个用户初始行为序列的长度,取该长度的中位数作为阈值z,定义时间间隔t=T/z.对每个用户,选取每一小段时间间隔t中第一个行为信息为该时间间隔t的历史行为信息,若某个时间间隔内没有行为信息,则定义离所述没有行为信息的时间间隔最近的原始序列中的历史行为信息为所述没有行为信息的时间间隔的历史行为信息,最终得到时间长度T一致且每个时间间隔都有行为信息的用户行为序列HT:
HT=[pta,pt2,pt3,…,ptn]
其中ptn表示某用户的第n个时间间隔内的行为信息,包括用户评分、项目名、项目类型等信息。
实验证明,虽然建模后用户的行为信息或增多或减少,但大多数用户的变化趋势没有类型上的改变,符合算法要求。
用户隐式相似度的获取,主要是通过LSTM判断在时序性数据映射后很久之前的评分项目进行是否被遗忘,判断在时序性数据映射后很久之前的评分项目的重要性并结合上一节的输入进行输出。所以最终结果是,重复率小且时间久远的项目,可能用户本身印象不大,对推荐结果的影响也小了,就被LSTM遗忘了,而通过用户隐式相似度的获取得到的就是用户仍然有兴趣且即使随着时间迁移也仍然有影响力的部分,
此处,LSTM的输出结果可以看做是用户当前预评分的项目,也就是用户感兴趣的项目特征,也就是用户隐式特征信息,通过这些用户隐式特征信息可以化作评分矩阵进行余弦相似度的计算。
在用户隐式相似度获取步骤中,通过把包含用户历史行为信息的时序性序列输入到LSTM模型中,用户对下一时刻项目的兴趣特征隐表示会被LSTM模型所获取,利用计算该用户对下一时刻项目的兴趣特征隐表示和下一时刻用户将要评分项目的特征之间的匹配度来优化LSTM模型,以确定最终的群组划分。
LSTM模型主要通过使用LSTM来捕获用户兴趣的变化,以用户i在时刻t之前评分序列Xi,t为例,目的是通过用户评分项目序列Xi,t来预测用户在时刻t时要评分项目。本发明中把该问题转化成排序问题,即要预测在时刻t点击的正样本D+在k次负采样得到的负样本集合D-中的排名,首先通过全连接层把项目原始特征映射到隐空间V中,其中包括对负采样的项目也进行同样的映射,它们之间参数共享。用公式表示为:
Figure BDA0002941858750000071
其中θDNN表示模型映射函数fDNN的参数.然后把用户按时间顺序评分的项目隐特征[V1,V2,…,Vt-1]作为LSTM网络的输入,通过LSTM模型学习到用户i在t时刻时将要点击项目的特征ht-1.用公式表示为:
ht-1=fLSTM(ht-2,Vt-1;θLTSM),
其中θLSTM表示模型映射函数fLSTM的参数,并且ht-1为V空间中的一个向量表示,即ht-1和[Vt,VN1,…,VND]都为同一隐空间的特征表示.为了避免把经过LSTM学习到的特征ht-1经过全连接网络映射到n维时,导致模型参数量过多的问题.我们分别ht-1和Vt以及[VN1,VN2,…,VNk]之间的匹配度,这里我们用余弦相似度来衡量它们之间的关系.用公式表示为:
Figure BDA0002941858750000081
通过计算完特征的匹配度之后,对计算得到的余弦值进行带γ平滑的softmax归一化如下式所示:
Figure BDA0002941858750000082
最后通过随机梯度下降的方法优化交叉熵损失即正类的负对数似然来优化整个模型.最后的代价函数如下所示:
Figure BDA0002941858750000083
当用户输入的评分项目序列过长时,会导致LSTM模型梯度消失,相应的模型也就无法学习为了让模型可以学习到更有效的用户特征表达,本发明把用户的特征和项目的特征进行拼接,一起作为LSTM模型的输入,这样就有效避免了当输入用户评分序列过短时造成LSTM学习用户特征不充足的缺点。
LSTM模型后,根据得到的用户随时间迁移的行为特征信息再次计算用户余弦相似度,得到则用户u和u之间的用户隐式相似度Simin(u,v)为:
Figure BDA0002941858750000084
其中Rui′、Rvi′分别表示用户u、用户v对项目i的评分,Iu、Iv分别表示经过长短时记忆网络后用户u和用户v的所有评分项目集。
在获取了用户显式相似度和所述用户隐式相似度的基础上,即可以根据用户显式相似度和用户隐式相似度对用户相似度进行群组划分,具体包括:
根据用户显式相似度Sim(u,v)与用户隐式相似度Simin(u,v)确定用户u和v之间的相似度S(u,v),计算公式为:
S(u,v)=Simin(u,v)+Sim(u,v);
根据所有用户之间的相似度确定用户相似度矩阵S;
根据用户相似度矩阵S进行群组划分,其中,相似度高的用户被划分在同一群组。
通过以上实施例的表述可以看出,本发明提出的基于长短时记忆网络的群组划分方法,通过循环神经网络进行用户隐式倾向获取,根据用户总体倾向对用户进行分组,解决了用户动态倾向导致用户分组不准确问题;并且,本发明还应用深度学习方法处理不同类型的数据,通过构建神经网络解决了数据稀疏性问题,同时对用户的隐层次倾向和项目的隐层次关系进行挖掘,从而在传统群组划分的获取用户显式信息基础上对用户可能出现的动态倾向和隐层次倾向进行挖掘,并依据长短时记忆网络的结果对不同特征的用户进行聚类以完成群组划分,基于迭代框架的可扩展性,在考虑用户历史反馈信息的基础上,引入项目特征和项目关系进行计算和迭代,有效地提高了生成群组内成员的相似度,为后续偏好融合奠定了更好的基础。
如上参照图1描述了根据本发明的基于长短时记忆网络的群组划分方法。本发明的上述基于长短时记忆网络的群组划分方法,可以采用软件实现,也可以采用硬件实现,或采用软件和硬件组合的方式实现。与上述基于长短时记忆网络的群组划分方法相对应,本发明还提供一种基于长短时记忆网络的群组划分系统。
图2示出了根据本发明的基于长短时记忆网络的群组划分系统200的方框示意图。如图2所示,基于长短时记忆网络的群组划分系统200包括时序性建模单元210、LSTM单元220和群组划分单元230。另外,还可以包括数据清洗单元和用户显式相似度获取单元(图中未示出)。
其中,时序性建模单元210用于根据用户历史行为信息进行时序性建模,以形成时序性数据序列;LSTM单元220用于通过预设的长短时记忆网络模型对所述时序性数据序列进行特征提取,以获取用户随时间迁移的行为特征信息,并根据所述用户随时间迁移的行为特征信息确定用户隐式相似度;群组划分单元230用于根据用户显式相似度和所述用户隐式相似度对用户进行群组划分。
优选的,数据清洗单元,用于对包含用户的历史活动信息的基础数据集进行数据清洗,以提取多维度的用户历史行为信息。
用户显式相似度获取单元,用于获取用户显式相似度,该用户显式相似度获取单元进一步包括:
用户相似度获取单元,用于通过用户评分矩阵在向量空间中的余弦夹角值来表示用户之间的相似度,夹角越小,余弦值越大,用户相似度越高,其中,用户u和v之间的相似度Sim_out(u,v)计算公式为:
Figure BDA0002941858750000101
其中:Rui、Rvi分别表示用户u、用户v对项目i的评分,Iu、Iv分别表示用户u和用户v的所有评分项目集;
用户的偏好相似度获取单元,用于获取用户的偏好相似度;其中,通过计算项目类型的偏好程度来推测用户对项目的偏好程度,其中,用户u对项目i的偏好程度计算公式为:
Wui=Rui×W_tag(ui,T);
其中,T为项目i所有类别的兴趣度列表,W_tag(ui,T)表示用户u对项目i的感兴趣程度,计算公式为:
Figure BDA0002941858750000102
其中,Tx表示第x个属性的兴趣度,
Figure BDA0002941858750000103
表示x属性的值tx出现的次数,Countt代表用户所有评分的带有t数据的项目数;
用户的偏好相似度的计算公式如下:
Figure BDA0002941858750000104
用户显式相似度获取单元,用于计算用户显式相似度Sim(u,v),计算公式为:
Sim(u,v)=α×Sim_out(u,v)+β×Sim_intest(u,v)+(1-α-β)×Sim_out(u,v)×Sim_intest(u,v);
其中,α和β是权重值,取值0~1。
可选的,时序性建模单元210根据用户历史行为信息进行时序性建模的过程包括:
将所述用户历史行为信息按时间排序,形成用户初始行为序列H.用户a的用户初始行为序列Ha为Ha=[p1a,p2a,p3a,p4a,p5a,…,pna];
其中,pna表示用户a的第n个行为信息,包括用户评分、项目名、项目类型;
分别计算每一个用户初始行为序列的长度,取所述长度的中位数作为阈值z,定义时间间隔t=T/z,对每个用户,选取每一小段时间间隔t中第一个行为信息为所述时间间隔t的历史行为信息,其中,若某个时间间隔内没有行为信息,则定义离所述没有行为信息的时间间隔最近的原始序列中的历史行为信息为所述没有行为信息的时间间隔的历史行为信息,最终得到时间长度T一致且每个时间间隔都有行为信息的用户行为序列HT:
HT=[pta,pt2,pt3,…,ptn];
其中,ptn表示某用户的第n个时间间隔内的行为信息,包括用户评分、项目名、项目类型。
可选的,LSTM单元220在根据所述用户随时间迁移的行为特征信息确定用户隐式相似度的过程中,用户隐式相似度Simin(u,v)的计算公式为:
Figure BDA0002941858750000111
其中Rui′、Rvi′分别表示用户u、用户v对项目i的评分,Iu、Iv分别表示经过长短时记忆网络后用户u和用户v的所有评分项目集。
可选的,群组划分单元230在根据用户显式相似度和所述用户隐式相似度对用户相似度进行群组划分的过程包括:
根据用户显式相似度Sim(u,v)与用户隐式相似度Simin(u,v)确定用户u和v之间的相似度S(u,v),计算公式为:
S(u,v)=Simin(u,v)+Sim(u,v);
根据所有用户之间的相似度确定用户相似度矩阵S;
根据所述用户相似度矩阵S进行群组划分,其中,相似度高的用户被划分在同一群组。
图4是本发明实现基于长短时记忆网络的群组划分方法的电子设备的结构示意图。
如图4所示,所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于长短时记忆网络的群组划分程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,在另一些实施例中也可以是电子设备1的外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于长短时记忆网络的群组划分程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,也可以是由多个相同功能或不同功能封装的集成电路所组成。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如会议系统语音数据采集程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池)、多种传感器、蓝牙模块、Wi-Fi模块、网络接口、用户接口等。
所述电子设备1中的所述存储器11为计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于长短时记忆网络的群组划分方法。具体的,作为示例,存储器11中存储的基于长短时记忆网络的群组划分程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
根据用户历史行为信息进行时序性建模,以形成时序性数据序列;
通过预设的长短时记忆网络模型对所述时序性数据序列进行特征提取,以获取用户随时间迁移的行为特征信息,并根据所述用户随时间迁移的行为特征信息确定用户隐式相似度;
根据用户显式相似度和所述用户隐式相似度对用户进行群组划分。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种基于长短时记忆网络的群组划分方法,其特征在于,包括:
根据用户历史行为信息进行时序性建模,以形成时序性数据序列;
通过预设的长短时记忆网络模型对所述时序性数据序列进行特征提取,以获取用户随时间迁移的行为特征信息,并根据所述用户随时间迁移的行为特征信息确定用户隐式相似度;
根据用户显式相似度和所述用户隐式相似度对用户进行群组划分;
其中,所述根据用户历史行为信息进行时序性建模的方法包括:
将所述用户历史行为信息按时间排序,形成用户初始行为序列H.用户a的用户初始行为序列Ha;
分别计算每一个用户初始行为序列的长度,取所述长度的中位数作为阈值z,定义时间间隔t=T/z,对每个用户,选取每一小段时间间隔t中第一个行为信息为所述时间间隔t的历史行为信息,其中,若某个时间间隔内没有行为信息,则定义离所述没有行为信息的时间间隔最近的原始序列中的历史行为信息为所述没有行为信息的时间间隔的历史行为信息,最终得到时间长度T一致且每个时间间隔都有行为信息的用户行为序列HT;
所述用户显式相似度通过如下步骤计算获取:
首先,计算用户相似度,其中,将用户评分矩阵看作空间上的向量,通过所述用户评分矩阵余弦夹角值来表示用户之间的相似度,夹角越小,余弦值越大,用户相似度越高,用户u和v之间的相似度Sim_out(u,v)计算公式为:
Figure FDA0003312695620000011
其中:Rui、Rvi分别表示用户u、用户v对项目i的评分,Iu、Iv分别表示用户u和用户v的所有评分项目集;
其次,通过计算项目类型的偏好程度来推测用户对项目的偏好程度,其中,用户u对项目i的偏好程度计算公式为:
Wui=Rui×W_tag(ui,T);
其中,T为项目i所有类别的兴趣度列表,W_tag(ui,T)表示用户u对项目i的感兴趣程度,计算公式为:
Figure FDA0003312695620000021
其中,Tx表示第x个属性的兴趣度,
Figure FDA0003312695620000022
表示x属性的值tx出现的次数,Countt代表用户所有评分的带有t数据的项目数;
用户的偏好相似度的计算公式如下:
Figure FDA0003312695620000023
最后,计算用户显式相似度Sim(u,v),计算公式为:
Sim(u,v)=α×Sim_out(u,v)+β×Sim_intest(u,v)+(1-α-β)×Sim_out(u,v)×Sim_intest(u,v);
其中,α和β是权重值,取值0~1。
2.如权利要求1所述的基于长短时记忆网络的群组划分方法,其特征在于,在所述根据用户历史行为信息进行时序性建模之前,还包括数据清洗步骤:
对包含用户的历史活动信息的基础数据集进行数据清洗,以提取多维度的用户历史行为信息。
3.如权利要求2所述的基于长短时记忆网络的群组划分方法,其特征在于,所述用户历史行为信息包括用户画像、项目的内容、项目的评分。
4.如权利要求3所述的基于长短时记忆网络的群组划分方法,其特征在于,
将所述用户历史行为信息按时间排序,形成的用户初始行为序列H.用户a的用户初始行为序列Ha为Ha=[p1a,p2a,p3a,p4a,p5a,…,pna];
其中pna表示用户a的第n个行为信息,包括用户评分、项目名、项目类型;
时间长度T一致且每个时间间隔都有行为信息的用户行为序列HT:
HT=[pta,pt2,pt3,…,ptn];
其中ptn表示某用户的第n个时间间隔内的行为信息,包括用户评分、项目名、项目类型。
5.如权利要求4所述的基于长短时记忆网络的群组划分方法,其特征在于,在根据所述用户随时间迁移的行为特征信息确定用户隐式相似度的过程中,用户隐式相似度Simin(u,v)的计算公式为:
Figure FDA0003312695620000031
其中Rui′、Rvi′分别表示用户u、用户v对项目i的评分,Iu、Iv分别表示经过长短时记忆网络后用户u和用户v的所有评分项目集。
6.如权利要求5所述的基于长短时记忆网络的群组划分方法,其特征在于,所述根据用户显式相似度和所述用户隐式相似度对用户相似度进行群组划分的方法包括:
根据用户显式相似度Sim(u,v)与用户隐式相似度Simin(u,v)确定用户u和v之间的相似度S(u,v),计算公式为:
S(u,v)=Simin(u,v)+Sim(u,v);
根据所有用户之间的相似度确定用户相似度矩阵S;
根据所述用户相似度矩阵S进行群组划分,其中,相似度高的用户被划分在同一群组。
7.一种基于长短时记忆网络的群组划分系统,其特征在于,包括:
时序性建模单元,用于根据用户历史行为信息进行时序性建模,以形成时序性数据序列;
LSTM单元,用于通过预设的长短时记忆网络模型对所述时序性数据序列进行特征提取,以获取用户随时间迁移的行为特征信息,并根据所述用户随时间迁移的行为特征信息确定用户隐式相似度;
用户显式相似度获取单元,用于获取用户显式相似度;
群组划分单元,用于根据所述用户显式相似度和所述用户隐式相似度对用户进行群组划分;
所述时序性建模单元根据用户历史行为信息进行时序性建模的过程包括:
将所述用户历史行为信息按时间排序,形成用户初始行为序列H.用户a的用户初始行为序列Ha;
分别计算每一个用户初始行为序列的长度,取所述长度的中位数作为阈值z,定义时间间隔t=T/z,对每个用户,选取每一小段时间间隔t中第一个行为信息为所述时间间隔t的历史行为信息,其中,若某个时间间隔内没有行为信息,则定义离所述没有行为信息的时间间隔最近的原始序列中的历史行为信息为所述没有行为信息的时间间隔的历史行为信息,最终得到时间长度T一致且每个时间间隔都有行为信息的用户行为序列HT;
所述用户显式相似度获取单元包括:
用户相似度获取单元,用于将用户评分矩阵看作空间上的向量,通过所述用户评分矩阵余弦夹角值来表示用户之间的相似度,夹角越小,余弦值越大,用户相似度越高,用户u和v之间的相似度Sim_out(u,v)计算公式为:
Figure FDA0003312695620000041
其中:Rui、Rvi分别表示用户u、用户v对项目i的评分,Iu、Iv分别表示用户u和用户v的所有评分项目集;
用户的偏好相似度获取单元,用于通过计算项目类型的偏好程度来推测用户对项目的偏好程度,其中,用户u对项目i的偏好程度计算公式为:
Wui=Rui×W_tag(ui,T);
其中,T为项目i所有类别的兴趣度列表,W_tag(ui,T)表示用户u对项目i的感兴趣程度,计算公式为:
Figure FDA0003312695620000042
其中,Tx表示第x个属性的兴趣度,
Figure FDA0003312695620000043
表示x属性的值tx出现的次数,Countt代表用户所有评分的带有t数据的项目数;
用户的偏好相似度的计算公式如下:
Figure FDA0003312695620000044
最后,计算用户显式相似度Sim(u,v)的公式为:
Sim(u,v)=α×Sim_out(u,v)+β×Sim_intest(u,v)+(1-α-β)×Sim_out(u,v)×Sim_intest(u,v);
其中,α和β是权重值,取值0~1。
8.如权利要求7所述的基于长短时记忆网络的群组划分系统,其特征在于,还包括:
数据清洗单元,用于对包含用户的历史活动信息的基础数据集进行数据清洗,以提取多维度的用户历史行为信息。
CN202110182959.1A 2021-02-08 2021-02-08 基于长短时记忆网络的群组划分方法及系统 Active CN112990430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110182959.1A CN112990430B (zh) 2021-02-08 2021-02-08 基于长短时记忆网络的群组划分方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110182959.1A CN112990430B (zh) 2021-02-08 2021-02-08 基于长短时记忆网络的群组划分方法及系统

Publications (2)

Publication Number Publication Date
CN112990430A CN112990430A (zh) 2021-06-18
CN112990430B true CN112990430B (zh) 2021-12-03

Family

ID=76392941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110182959.1A Active CN112990430B (zh) 2021-02-08 2021-02-08 基于长短时记忆网络的群组划分方法及系统

Country Status (1)

Country Link
CN (1) CN112990430B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569618A (zh) * 2016-10-19 2017-04-19 武汉悦然心动网络科技股份有限公司 基于循环神经网络模型的滑动输入方法及系统
CN110502704A (zh) * 2019-08-12 2019-11-26 山东师范大学 一种基于注意力机制的群组推荐方法及系统
CN111061961A (zh) * 2019-11-19 2020-04-24 江西财经大学 一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统
CN111325027A (zh) * 2020-02-19 2020-06-23 东南大学 一种面向稀疏数据的个性化情感分析方法与装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877387B2 (en) * 2005-09-30 2011-01-25 Strands, Inc. Systems and methods for promotional media item selection and promotional program unit generation
CN102044009A (zh) * 2009-10-23 2011-05-04 华为技术有限公司 群组推荐方法和系统
EP2463818A1 (en) * 2010-12-07 2012-06-13 Digital Foodie Oy A method for creating computer generated shopping list
US9189965B2 (en) * 2012-06-29 2015-11-17 International Business Machines Corporation Enhancing posted content in discussion forums
CN103745100B (zh) * 2013-12-27 2017-01-04 浙江大学 一种基于项目的混合显性隐性反馈的协同过滤推荐的方法
CN105589916B (zh) * 2016-01-11 2020-05-08 西华大学 显式和隐式兴趣知识的提取方法
US11442445B2 (en) * 2017-08-02 2022-09-13 Strong Force Iot Portfolio 2016, Llc Data collection systems and methods with alternate routing of input channels
US10963273B2 (en) * 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
CN108628967B (zh) * 2018-04-23 2020-07-28 西安交通大学 一种基于学习生成网络相似度的网络学习群组划分方法
CN108829766B (zh) * 2018-05-29 2021-09-21 苏州大学 一种兴趣点推荐方法、系统、设备及计算机可读存储介质
CN110110181B (zh) * 2019-05-09 2020-12-11 湖南大学 一种基于用户风格和场景偏好的服装搭配推荐方法
CN111785366B (zh) * 2020-06-29 2023-05-26 平安科技(深圳)有限公司 患者治疗方案的确定方法、装置及计算机设备
CN112270349B (zh) * 2020-10-23 2023-02-21 福州大学 基于gcn-lstm的个体位置预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569618A (zh) * 2016-10-19 2017-04-19 武汉悦然心动网络科技股份有限公司 基于循环神经网络模型的滑动输入方法及系统
CN110502704A (zh) * 2019-08-12 2019-11-26 山东师范大学 一种基于注意力机制的群组推荐方法及系统
CN111061961A (zh) * 2019-11-19 2020-04-24 江西财经大学 一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统
CN111325027A (zh) * 2020-02-19 2020-06-23 东南大学 一种面向稀疏数据的个性化情感分析方法与装置

Also Published As

Publication number Publication date
CN112990430A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN110503531B (zh) 时序感知的动态社交场景推荐方法
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN112347367B (zh) 信息服务提供方法、装置、电子设备和存储介质
CN111291187B (zh) 一种情感分析方法、装置、电子设备及存储介质
CN114359563B (zh) 模型训练方法、装置、计算机设备和存储介质
CN110245310B (zh) 一种对象的行为分析方法、装置及存储介质
CN115048586B (zh) 一种融合多特征的新闻推荐方法及系统
CN116542701A (zh) 一种基于cnn-lstm组合模型的碳价预测方法及系统
CN110826327A (zh) 情感分析方法、装置、计算机可读介质及电子设备
CN117314593B (zh) 一种基于用户行为分析的保险项目推送方法及系统
CN112990430B (zh) 基于长短时记忆网络的群组划分方法及系统
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
CN116342906A (zh) 一种跨域小样本图像识别方法及系统
CN113420680B (zh) 一种基于gru注意力的遥感影像区域关注与文本生成方法
CN111552827B (zh) 标注方法和装置、行为意愿预测模型训练方法和装置
CN112132310A (zh) 基于改进lstm的电力设备状态预估方法及装置
CN110415006B (zh) 广告点击率预估方法和装置
Li et al. Time series classification with deep neural networks based on Hurst exponent analysis
CN112784058A (zh) 一种基于动态图谱的实体相关性获取方法
CN111177493A (zh) 数据处理方法、装置、服务器和存储介质
CN117648631B (zh) 一种电动汽车群组的动力电池健康状态估计方法
CN112541705B (zh) 生成用户行为评估模型的方法、装置、设备以及存储介质
CN112328645B (zh) 基于知识图谱的用户兴趣爱好确定方法及系统
CN116739650A (zh) 行为数据预测模型的更新方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant