CN112765342A

CN112765342A - 一种基于时间与语义的文章推荐方法

Info

Publication number: CN112765342A
Application number: CN202110301195.3A
Authority: CN
Inventors: 陆辰; 王振宇; 王羽; 荀智德; 葛唯益; 郭成昊; 陆宏; 朱云峰
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-05-07
Anticipated expiration: 2041-03-22
Also published as: CN112765342B

Abstract

本发明提供了一种基于时间与语义的文章推荐方法，包括：从文章数据库中获取所有文章的信息，根据每篇文章的标题和内容，获得每篇文章的向量表示，文章的信息包括标题、内容和发表时间；构建文章向量矩阵，用于批量计算每两篇文章之间的余弦相似度和余弦距离；根据每篇文章的发表时间，构建时间矩阵，用于批量计算每两篇文章之间的距离；根据用户查看的目标文章向用户推荐相似文章。本发明能够避免面向海量文章逐个遍历、两两计算相似度及距离导致的处理效率过低的问题，且综合考虑了时间、语义两方面因素，提高了文章相似度及距离计算的性能，保障推荐文章的效果。

Description

一种基于时间与语义的文章推荐方法

技术领域

本发明涉及推荐技术领域，尤其涉及一种基于时间与语义的文章推荐方法。

背景技术

当前正处于互联网数据大爆炸的历史发展时期，网络信息的数据呈现指数级增长，海量的信息导致用户准确找到所需信息变得异常艰难，文章推荐已经成为减轻用户信息负载的重要途径。

论文《基于深度学习的个性化新闻推荐》、《基于项目特征和排序学习的新闻推荐系统设计及实现》等基于用户的浏览情况构建特征，向用户推荐其感兴趣的新闻，最终推荐的结果与用户感兴趣的领域相关，但是与当前浏览的新闻未必相关，不适用于用户希望针对特定新闻事件进行持续浏览的情况。现已公开的国家发明专利《一种文章相似度推荐方法和装置》，但在现有技术中，仅考虑了语义层面的因素，通过词频统计分析文章的相似度，进而向用户推荐文章，这可能导致推荐的文章虽然与用户浏览的文章相似，但时间相距甚远，与用户关注的特定时间段特定新闻事件并不相关。

此外，由于文章具有时效性，特定新闻事件发生同期会涌现大量相关文章，发生前以及发生后的一定时间以后往往没有相关新闻，因此文章的发表时间能够一定程度上表征文章的相关性。但是，与指定文章同期发表的其他文章，可能是其他新闻事件的相关报道，因此未必与该文章相关。

发明内容

本发明提供了一种基于时间与语义的文章推荐方法，以解决现有的文章推荐方法在进行相似度计算从而向用户推荐文章时，仅考虑语义层面的因素或者仅考虑时间层面的因素，导致推荐的文章与用户浏览的特定新闻事件相关度较低这一问题。

本发明提供的一种基于时间与语义的文章推荐方法，包括以下步骤：

步骤1，从文章数据库中获取所有文章的信息，根据每篇所述文章的标题和内容，获得所述每篇文章的向量表示，所述文章的信息包括标题、内容和发表时间；

步骤2，构建文章向量矩阵，用于批量计算每两篇所述文章之间的余弦相似度和余弦距离；

步骤3，根据所述每篇文章的发表时间，构建时间矩阵，用于批量计算所述每两篇文章之间的距离；

步骤4，根据用户查看的目标文章向用户推荐相似文章。

进一步地，在一种实现方式中，所述步骤1，包括：

步骤1.1，根据所述每篇文章的标题和内容，基于词嵌入模型获取所述每篇文章的标题的向量表示；本发明中，词嵌入模型可使用但不限于bert、word2vec等。

步骤1.2，对所述每篇文章的内容进行分词，对照停用词表，去除所述内容中的停用词，基于所述词嵌入模型获取文章的内容的向量表示；

步骤1.3，根据所述每篇文章的标题的向量表示和内容的向量表示，生成所述每篇文章的向量表示。

进一步地，在一种实现方式中，所述步骤1.3，包括：采用向量拼接方法或基于权重的累加方法生成所述每篇文章的向量表示；

所述向量拼接方法分别将每篇文章的标题的向量表示和内容的向量表示进行拼接，作为所述每篇文章的向量表示：

X_i＝[X_i-title X_i-content]

其中，X_i为文章i的向量表示，X_i-title为文章i的标题的向量表示，X_i-content为文章i的内容的向量表示；

所述基于权重的累加方法对每篇文章的标题和内容分别设置权重，通过加权求和获得所述每篇文章的向量表示：

X_i＝w_i-titleX_i-title+w_i-contentX_i-content

其中，w_i-title为文章i的标题权重，w_i-content为文章i的内容权重，

标题权重w_i-title和内容权重w_i-content的取值范围均为(0，1)，w_i-title+w_i-content＝1。

进一步地，在一种实现方式中，所述步骤2，包括：

步骤2.1，将所有所述文章的向量表示按行拼接，

其中，文章总篇数为n，每篇文章的向量维度为1×m，文章的i的编号为ID_i，此处n≥2，m≥200，ID_i≥0且唯一，记录文章拼接顺序向量ID＝[ID₁ ID₂ … ID_n]，同时得到维度为n×m的文章矩阵：

步骤2.2，将所述文章矩阵与文章矩阵的转置矩阵相乘，得到维度为n×n的矩阵Y：Y＝XX^T；

步骤2.3，对所述每篇文章的向量表示求模并按行拼接，得到文章模向量：

Z＝[|X₁||X₂|…|X_n|]^T

步骤2.4，将所述文章模向量与文章模向量的转置矩阵相乘，得到维度为n×n的矩阵A：A＝ZZ^T；

步骤2.5，将所述矩阵Y与矩阵A对应元素相除，得到文章余弦相似度矩阵S_cos＝Y./A，其中第i行第j列的元素代表文章i与文章j的余弦相似度；

步骤2.6，用全一矩阵减去所述文章余弦相似度矩阵S_cos，得到文章余弦距离矩阵D_cos＝1-S_cos。

进一步地，在一种实现方式中，所述步骤3，包括：

步骤3.1，判断所述文章余弦距离矩阵D_cos中的元素的绝对值是否小于10^-5，将所述文章余弦距离矩阵D_cos中的绝对值小于10^-5的元素赋值为0；

步骤3.2，根据所述每篇文章i的发表时间T_i，将所有所述文章的发表时间构建为时间矩阵：

步骤3.3，将所述时间矩阵减去时间矩阵的转置矩阵，得到时间差矩阵T_D＝T-T^T；

步骤3.4，比较所述时间差矩阵中元素绝对值与时间阈值T_t的大小；

若所述时间差矩阵中元素绝对值大于时间阈值T_t，将所述元素赋值为1；

若所述时间差矩阵中元素绝对值小于或等于时间阈值T_t，将所述元素赋值为0；

得到时间跨度表征矩阵T₁，对所述矩阵T₁取反得到时间跨度反向表征矩阵T₂；

步骤3.5，结合所述文章余弦距离矩阵矩阵D_cos、时间跨度表征矩阵T₁和时间跨度反向表征矩阵T₂，得到文章距离矩阵D＝w_TT₁+T₂.*D_cos，此处w_T≥2。

进一步地，在一种实现方式中，所述步骤4，包括：

步骤4.1，根据用户查看的目标文章的文章编号ID_s，检索所述目标文章的文章拼接顺序向量ID，得到所述用户查看的目标文章的ID_s在文章拼接顺序向量ID所处的元素位置k；

步骤4.2，令文章距离阈值为D_t，根据元素位置k，搜索所述文章距离矩阵D的第k行，得到元素值小于所述距离阈值D_t的元素所属列位置，找到文章拼接顺序向量相应位置的文章ID，即确定所述相似文章，并将所述相似文章推荐给用户；

或者，

令文章距离阈值为D_t，根据元素位置k，搜索所述文章距离矩阵D的第k列，得到元素值小于所述距离阈值D_t的元素所属行位置，找到文章拼接顺序向量相应位置的文章ID，即确定所述相似文章，将所述相似文章推荐给用户。

现有技术中，在进行相似度计算从而向用户推荐文章时，仅考虑语义层面的因素或者仅考虑时间层面的因素，导致推荐的文章与用户浏览的特定新闻事件相关度较低。而采用前述方法，为了解决文章推荐问题，综合考虑了时间、语义两方面因素，批量计算文章距离，并基于文章距离向用户推荐相关文章，达到了提升文章推荐相关度的效果。本发明能够避免面向海量文章逐个遍历、两两计算相似度及距离导致的处理效率过低的问题，且综合考虑了时间、语义两方面因素，提高了文章相似度及距离计算的性能，保障推荐文章的效果。因此，相对于现有技术大大提高推荐的文章与用户浏览的文章的相关度，进而提升了用户浏览文章时的体验。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例部分提供的一种基于时间与语义的文章推荐方法的工作流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明实施例公开一种基于时间与语义的文章推荐方法，包括根据文章标题、文章内容，得到文章的向量表示；构建文章向量矩阵，批量计算文章之间的余弦相似度与余弦距离；根据文章发表时间，构建时间矩阵，批量计算文章距离；根据用户查看的文章向其推荐相似文章。本方法应用于针对反复发生的事件或持续发展的主题的分析，能够帮助用户聚焦关注的时间窗口内的资讯，或聚焦同一时间窗口、主题下针对相同事件的资讯。下面结合具体的实施例对本发明进行详细说明，应理解本实施例仅用于解释本发明，并不限定本发明的范围。

本发明实施例提供的一种基于时间与语义的文章推荐方法，包括以下步骤：

步骤4，根据用户查看的目标文章向用户推荐相似文章。

本发明实施例所述的一种基于时间与语义的文章推荐方法中，所述步骤1，包括：

步骤1.1，根据所述每篇文章的标题和内容，基于词嵌入模型获取所述每篇文章的标题的向量表示；本实施例中，所述词嵌入模型可使用但不限于bert、word2vec等。

步骤1.2，对所述每篇文章的内容进行分词，对照停用词表，去除所述内容中的停用词，基于所述词嵌入模型获取文章的内容的向量表示；本实施例汇总，此处的停用词表基于哈工大停用词表、百度停用词表等进行汇总生成。

本发明实施例所述的一种基于时间与语义的文章推荐方法中，所述步骤1.3，包括：采用向量拼接方法或基于权重的累加方法生成所述每篇文章的向量表示；

X_i＝[X_i-title X_i-content]

本实施例中，所述向量拼接方法可用于标题和内容同等重要的应用场合。

X_i＝w_i-titleX_i-title+w_i-contentX_i-content

本发明实施例所述的一种基于时间与语义的文章推荐方法中，所述步骤2，包括：

步骤2.1，将所有所述文章的向量表示按行拼接，

Z＝[|X₁| |X₂|…|X_n|]^T

本发明实施例所述的一种基于时间与语义的文章推荐方法中，所述步骤3，包括：

本发明实施例所述的一种基于时间与语义的文章推荐方法中，所述步骤4，包括：

或者，令文章距离阈值为D_t，根据元素位置k，搜索所述文章距离矩阵D的第k列，得到元素值小于所述距离阈值D_t的元素所属行位置，找到文章拼接顺序向量相应位置的文章ID，即确定所述相似文章，将所述相似文章推荐给用户。

具体的，本发明实施例中，针对某货运平台的乘客跳车事件，收集46篇新闻存入数据库，人工标记为跳车事件分析、平台系统整改两个维度的新闻，使用BERT词嵌入模型生成标题向量、内容向量，将标题权重设置为0.7，内容权重设置为0.3，时间阈值设置为7天，文章距离阈值设置为0.13，随机浏览新闻时，推荐相似文章的准确率达到92％，召回率为86％，因此，采用本发明提供的一种基于时间与语义的文章推荐方法，能够帮助用户聚焦在其关注的维度，提高查阅文章的效率，可根据使用需要调节参数设置，在准确率和召回率之间达到比较均衡的效果。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的一种基于时间与语义的文章推荐方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于时间与语义的文章推荐方法，其特征在于，包括以下步骤：

步骤4，根据用户查看的目标文章向用户推荐相似文章。

2.根据权利要求1所述的一种基于时间与语义的文章推荐方法，其特征在于，所述步骤1，包括：

步骤1.1，根据所述每篇文章的标题和内容，基于词嵌入模型获取所述每篇文章的标题的向量表示；

3.根据权利要求2所述的一种基于时间与语义的文章推荐方法，其特征在于，所述步骤1.3，包括：采用向量拼接方法或基于权重的累加方法生成所述每篇文章的向量表示；

X_i＝[X_i-title X_i-content]

X_i＝w_i-titleX_i-title+w_i-contentX_i-content

4.根据权利要求1所述的一种基于时间与语义的文章推荐方法，其特征在于，所述步骤2，包括：

步骤2.1，将所有所述文章的向量表示按行拼接，

Z＝[X₁| |X₂| … |X_n|]^T

5.根据权利要求1所述的一种基于时间与语义的文章推荐方法，其特征在于，所述步骤3，包括：

6.根据权利要求1所述的一种基于时间与语义的文章推荐方法，其特征在于，所述步骤4，包括：

或者，