CN117573856B

CN117573856B - 一种基于记忆网络的建筑领域内容多兴趣召回方法

Info

Publication number: CN117573856B
Application number: CN202410055579.5A
Authority: CN
Inventors: 胡少云; 翁清雄; 陈远方; 马洪栋
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-07-05
Anticipated expiration: 2044-01-15
Also published as: CN117573856A

Abstract

本发明涉及个性化内容推荐技术领域，公开了一种基于记忆网络的建筑领域内容多兴趣召回方法，包括：通过专家构建专有词库和建筑子领域相关的兴趣点；通过专有词库对用户浏览的建筑内容文本进行分词，得到嵌入向量；采用记忆网络预测用户对建筑内容文本的喜好程度，记忆网络包括多个记忆单元；每个记忆单元具有一个状态向量；对记忆网络的训练：将用户的每个兴趣点作为一个召回通路；在第i个召回通路中，筛选出多个最大余弦相似度对应的待召回的建筑内容文本；将所有召回通络中筛选出的建筑内容文本进行排序、去重，得到针对所述用户的召回结果。通过多路召回的方式，同时考虑用户的多种兴趣，满足用户的多元化需求。

Description

一种基于记忆网络的建筑领域内容多兴趣召回方法

技术领域

本发明涉及个性化内容推荐技术领域，具体涉及一种基于记忆网络的建筑领域内容多兴趣召回方法。

背景技术

伴随技术进步和市场扩展，建筑领域中的内容已经呈现出爆炸式增长，建筑领域内容涉及规划设计、项目建造、运营维护、建筑材料等方面信息。这种快速的发展使用户面临信息过载的问题，当用户的兴趣和需求日益丰富和多样化时，这种问题尤为突出。专业人员追求高效，公众则希望更深入了解建筑的各个方面。本发明旨在通过先进的算法分析用户行为和兴趣，为他们提供最为贴切的内容推荐。

建筑产业是国民经济的重要支柱产业，其体量大但信息化水平低，存在较大提升空间。当前，整个建筑行业的数字化程度落后，主要表现为建筑数字化覆盖率低、缺乏信息化人才、数字化成果不明显等问题。智能建造、装配式建筑、建筑机器人等领域的新技术、新技术知识需要进一步地发展与普及，建筑行业的数字化程度需要进一步的提升。因此，行业迫切需要一个建筑科技类资讯的内容平台，作为普及新技术、新产品的交流平台，同时促进行业信息的充分交流，推动建筑行业劳动生产率的提高。

建筑领域内容平台目前面临着建筑科技类优质内容稀缺、用户体验不佳以及建筑行业线上社区活跃度低、留存率低等问题。为了解决这些问题，需要建立一个高质量的内容聚合平台，提升内容的可读性和传播性，并鼓励用户参与讨论，促进建筑行业的信息交流与共享。针对平台分发效率低下、信息过载、信息获取效率低、用户体验不佳、个性化需求得不到满足等问题，在建筑领域科技内容平台的建设中引入推荐系统将是一个有效的解决方案。

随着建筑业的数字化和信息化，推荐系统的作用变得越来越重要。这种系统的核心在于能够根据用户的需求、行为和兴趣为其提供合适的建筑内容和信息。例如，建筑师、设计师和其他专业人员在进行建筑设计时，需要大量的设计灵感。推荐系统可以根据他们过去的设计风格、浏览历史和项目需求，推荐与之相匹配的设计案例、图片和资料，加速设计创意的生成。另外，建筑项目中需要使用的各种建筑材料可以通过推荐系统进行内容推荐，建筑商和承包商可以得到与他们项目相关的最佳材料建议，这不仅可以提高效率，还可以确保项目的质量。随着建筑技术的快速发展，有许多新技术和方法可以用于实际施工。推荐系统可以为施工队伍推荐最新、最适合的建筑技术和方法，从而提高施工效率和质量。对于建筑专业人员的培训和教育，推荐系统可以根据他们的学习历史和需求，推荐合适的在线课程、研讨会和其他教育资源，帮助他们不断提高自己的专业能力。

推荐系统在建筑领域的应用正在逐年增加。现有方案主要有：基于内容的推荐、协同过滤以及深度学习方法。

1、基于内容的推荐

基于内容的推荐是一种根据用户以往的喜好来进行推荐的方法。这种方法的核心思想是，如果用户在过去对某种类型的内容表现出兴趣，那么他们在未来很可能对相似内容也感兴趣。系统会根据用户过去的行为和兴趣来推荐相似的内容。例如，如果一个建筑师经常阅读关于“绿色建筑”或“可持续设计”方面的文章，基于内容的推荐系统就会识别出这种偏好，并推荐相关的文献、研究报告或文章。实现这种推荐的关键是文本的特征提取。常用的文本处理技术如TF-IDF(词频-逆文档频率)、N-grams和主题模型等，都能够提取文本内容的关键特征和主题。

2、协同过滤

协同过滤是另一种流行的推荐方法，它是基于大量用户的行为和偏好来进行推荐的。简单地说，如果两个用户在过去有相似的行为和喜好，那么他们在未来可能也会对相同的内容感兴趣。简言之，如果两名建筑师经常阅读和保存相似的文章或文档，那么当一名建筑师对某篇新文章感兴趣时，这篇文章也可能被推荐给另一名建筑师。协同过滤可以分为用户-用户协同过滤和项目-项目协同过滤。前者是基于用户的相似性进行推荐，后者是基于项目或内容的相似性。计算相似性通常使用方法如皮尔逊相关系数或余弦相似性。

3、深度学习方法

近年来，深度学习已经成为包括推荐系统在内的许多领域的研究焦点。在建筑领域，深度学习模型，诸如Word2Vec、BERT等词嵌入模型，能够捕捉词汇之间的复杂关系，并将这些词转化为向量，这为文本推荐提供了丰富的信息。利用深度学习，可以更准确地捕捉到建筑术语、技术和概念之间的关系。当用户阅读关于某一特定建筑技术的文章后，系统可以推荐该技术的进一步应用、相关的设计案例或者与其相似的其他技术的文章。

虽然建筑领域内容推荐已经采用了一些现有的推荐技术方案，但在实际应用中，这些方案的效果并不理想。主要存在以下问题：

内容专业性强：建筑专业涉及的术语和概念可能超出了常规文本处理技术的处理范围。这意味着，即使是关于相似主题的文章，如果使用了不同的专业术语，常规技术可能难以捕捉它们之间的关联。

用户兴趣多样：建筑师和设计师的兴趣可能涵盖多个子领域，如景观设计、室内设计和建筑结构等。传统的推荐方法，如基于内容的推荐或协同过滤，可能会因为侧重于用户的过去行为或其他用户的相似行为，而无法广泛地满足用户的多种兴趣。

交互数据较少：建筑领域的专业性意味着用户可能不会频繁地与推荐平台互动，从而导致数据稀疏。这种数据的缺乏对于协同过滤这类依赖大量用户行为的推荐方法尤为致命。同时，深度学习方法，尽管在其他领域已展现出很高的准确性，但在数据较少的情况下，其表现可能并不理想。

发明内容

为解决上述技术问题，本发明提供一种基于记忆网络的建筑领域内容多兴趣召回方法，可以帮助各相关方更高效地获取和交互信息，从而提高建筑行业的整体效率和质量。

为解决上述技术问题，本发明采用如下技术方案：

一种基于记忆网络的建筑领域内容多兴趣召回方法，包括以下步骤：

步骤一：通过专家构建建筑领域的专有词库、建筑子领域和建筑子领域相关的兴趣点；

步骤二：通过专有词库对用户U当前浏览的建筑内容文本进行分词，将分词结果输入到BERT预训练模型，得到建筑内容文本的嵌入向量；

步骤三：采用记忆网络预测用户U对建筑内容文本的喜好程度，记忆网络包括多个记忆单元；每个记忆单元具有一个状态向量，代表用户U的一个兴趣点；在用户U浏览建筑内容文本时，能够通过门控机制更新记忆单元的状态向量，实现对记忆网络的训练，具体包括：

所述门控机制为第个记忆单元引入重置门和更新门：

；

其中，表示记忆网络中记忆单元的总数，表示激活函数；表示第个记忆单元的状态向量，表示与第个记忆单元相关的兴趣文本嵌入向量，、、、、和均为权重矩阵；

计算第个记忆单元的候选更新状态向量：；

结合更新门得到第个记忆单元的新的状态向量：；代表Hadamard乘积，和为权重矩阵；通过对进行更新；

步骤四，将用户U的每个兴趣点作为一个召回通路，即每个记忆单元对应一个召回通路；对于第个召回通路，计算给定的个待召回的建筑内容文本的嵌入向量与第个记忆单元的状态向量的余弦相似度：

，；

在第个召回通路中，筛选出最大的N个余弦相似度对应的待召回的建筑内容文本；

将所有召回通络中筛选出的建筑内容文本进行排序、去重，得到针对所述用户U的召回结果。

进一步地，步骤三中，预测用户U对建筑内容文本的喜好程度时，具体包括：

对于一个建筑内容文本，计算所述建筑内容文本的嵌入向量与记忆网络中每一个记忆单元的状态向量之间的余弦相似度：

，；

将所有记忆单元对应的余弦相似度组合为相似度向量；

将相似度向量输入到softmax层，得到所述用户U对所述建筑内容文本的喜好程度：；其中，为权重矩阵。

进一步地，所述建筑子领域包括住宅设计、商业建筑设计、历史建筑修复、城市规划、景观设计、室内设计、环境友好建筑、结构工程、材料和施工技术，以及建筑理论和历史；

与住宅设计相关的兴趣点包括现代住宅设计、绿色住宅、小户型住宅、乡村住宅和复式住宅设计；

与商业建筑设计相关的兴趣点包括商场设计、办公楼设计、酒店设计、会展中心和主题公园；

与历史建筑修复相关的兴趣点包括古建筑保护、城市更新、文化遗产修复和旧城改造；

与城市规划相关的兴趣点包括交通规划、公园绿地、市政基础设施、低碳城市和步行友好设计；

与景观设计相关的兴趣点包括城市广场、公园设计、屋顶花园、垂直绿化和海滨景观；

与室内设计相关的兴趣点包括家居装饰、办公空间、餐厅布局、酒店室内和精品店铺；

与环境友好建筑相关的兴趣点包括能源高效、雨水收集、绿色屋顶、自然通风和可再生材料应用；

与结构工程相关的兴趣点包括抗震设计、高层建筑、桥梁设计、隧道工程和大跨度结构；

与材料和施工技术相关的兴趣点包括绿色建材、3D打印建筑、预制建筑、智能家居技术和建筑自动化；

与建筑理论和历史相关的兴趣点包括建筑风格、建筑师研究、建筑文化、建筑教育和历史建筑研究。

与现有技术相比，本发明的有益技术效果是：

1.解决内容专业性问题：通过引入建筑专家人工构建的建筑领域内容类别，推荐系统能够涵盖建筑领域的所有关键子领域，从而更精确地捕捉到建筑领域的细分领域内容。这样，即使在面对不同的专业术语时，也能准确地捕捉内容间的关联。

2.满足用户兴趣多样性并实时反应其变化：利用记忆网络的结构，长时间存储并检索用户的多样化兴趣，避免了单一推荐的局限性。同时，每个记忆单元都对应一个建筑内容的兴趣点，使得通过用户与内容的实时交互信号，可以不断更新和调整记忆网络中的记忆单元，从而更快速地捕捉到用户兴趣的变化。

3.处理交互数据稀疏问题：记忆网络长时间存储用户的互动信息，使得即使在用户交互数据较少的情况下，也能为用户提供精确推荐，增强了推荐系统的鲁棒性。

4.提供更深度和广度的推荐：通过多路召回的方式，同时考虑用户的多种兴趣，确保推荐内容既有深度又有广度，满足用户的多元化需求。

附图说明

图1为本发明实施例中的召回方法的流程图；

图2为本发明实施例中基于建筑领域专有词库进行分词并得到嵌入向量的流程图；

图3为本发明实施例中的记忆网络更新状态向量的流程图；

图4为本发明实施例中通过多个召回通路得到召回结果的流程图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本发明中的召回方法指的是，从大量建筑内容文本中挑选出一小部分作为候选集，然后对候选集进行排序、去重，并将结果推荐给用户的过程。

本发明提出了一种基于记忆网络的建筑领域内容多兴趣召回方法，以更精确地满足用户在建筑领域的多样化需求。

首先，考虑到建筑领域的内容专业性较强，直接应用通用的推荐技术可能会忽略某些重要的细分领域。为了克服这一挑战，本发明采取了建筑领域专家人工构建建筑领域内容类别的方法。这种方法可以确保推荐系统能够涵盖建筑领域的所有关键子领域，并且能够更精确地刻画用户在这些子领域中的兴趣。

接着，为了更精确地捕捉和描述用户的兴趣，本发明采用了记忆网络的结构。记忆网络是一种能够长时间存储和检索信息的神经网络结构，这使其非常适合为用户建模。在该方法中，每个记忆单元都对应一个建筑内容的兴趣点，如“现代建筑设计”或“绿色建筑材料”。用户与内容的交互，如阅读、评论或分享，都可以被视为一种信号，指示用户对某一兴趣点的偏好程度。通过这些交互信号，可以不断更新和调整记忆网络中的记忆单元，从而实时地了解用户的兴趣变化。

最后，得到了每个用户的基于记忆网络的兴趣模型后，本发明可以根据这些兴趣模型进行多路召回。不同于传统的单一推荐方法，多路召回可以同时考虑用户的多种兴趣，确保推荐内容既有深度又有广度。这意味着，即使用户在某一时刻对某一子领域表现出强烈的兴趣，系统也会考虑到用户的其他潜在兴趣，从而为用户提供更加丰富和多样化的内容。

总的来说，本发明旨在解决现有技术在建筑领域的应用问题，为用户提供更为准确、个性化和多样化的建筑内容推荐。如图1所示，从以下三个方面对本发明的技术方案进行具体介绍。

1.专业领域知识构建

如图2所示，考虑到建筑领域的专业性和复杂性，本发明通过经验丰富的建筑专家构建一个针对建筑领域的专有词库。这一步骤的目的是在文本预处理阶段对建筑相关的专业术语进行精确分词，确保关键信息不被遗漏或误解。完成分词处理后的建筑内容文本会被输入到BERT模型中，转化为建筑内容文本的嵌入向量。这种表示方法不仅能够捕获建筑内容文本的语义信息，还能为后续的计算和分析提供高质量的特征。

同时，为了更好地理解和分类用户的建筑内容兴趣，建筑专家参考大量的建筑资料，结合自己的实践经验，确定了关键的建筑子领域和相关兴趣点。这一阶段的工作确保了本发明不仅仅是技术驱动的，还根植于实际的建筑实践和知识中，为后续的用户兴趣建模和推荐策略打下了坚实的基础；具体如表1所示。

表1 建筑子领域与各子领域的相关兴趣点

2.用户兴趣建模

为了捕获用户的多样兴趣，本发明采用了记忆网络作为建模工具。每个记忆单元都代表用户的一个兴趣点。考虑到用户对于推荐内容的喜好，本发明为记忆网络设计了一个明确的训练任务：给定用户浏览的内容，预测用户是否会喜欢该内容。这个预测任务使得模型能够更加精准地捕捉到用户的兴趣，为提供更个性化的推荐做好准备。

如图3所示，本发明为每个记忆单元引入了重置门和更新门。这里的门控机制不仅仅基于用户浏览的建筑内容文本的嵌入向量和第个记忆单元的状态向量，还加入了与记忆单元相关的兴趣文本嵌入向量作为输入，从而增强记忆网络的语义表达能力。

；

其中，、、、、和均为权重矩阵，表示神经网络激活函数，例如sigmoid函数或者Relu函数。

通过这种方法，本发明不仅仅是通过记忆网络捕捉用户的兴趣，而且还具备了预测用户对某个建筑内容文本的喜好程度的能力，这为在后续的推荐中做出更精确决策提供了强有力的工具。根据上述的重置门和更新门，计算记忆单元的候选更新状态向量：

；

然后，结合更新门来得到记忆单元的新状态向量：

；

其中，代表Hadamard乘积（元素乘法），和是权重矩阵。

对于用户浏览的建筑内容文本的嵌入向量，计算其与每一个记忆单元之间的余弦相似度。这样，对于每一个的记忆单元，都可以得到一个余弦相似度，形成一个相似度向量，其中表示与之间的余弦相似度：

，；

将相似度向量输入到一个softmax层来预测用户是否会喜欢当前的建筑内容文本：

；

其中，是权重矩阵，表示了用户对当前内容的喜好程度。通过这种方式，衡量用户浏览的建筑内容文本与用户所有潜在兴趣之间的相似度，然后基于这些相似度做出预测。

这种设计带来的优势是，系统能够更全面地评估内容与用户的匹配程度，从而更准确地预测，进一步提高推荐的质量和用户满意度。通过这种机制，当用户与更多内容互动时，记忆单元会根据用户的实时行为进行动态更新，为后续的推荐召回任务提供动态、细致的用户兴趣模型。

3.多路兴趣召回

在推荐系统中，多路召回策略被广泛采用，其目的是从多个维度、途径捕捉用户的兴趣，并综合召回一系列可能相关的内容，从而最大化满足用户的多样化需求。在本发明中，采用了与每个兴趣点对应的记忆单元来实现多路召回。

如图4所示，首先，待召回的建筑内容文本通过BERT预训练模型转化为嵌入向量。这些嵌入向量捕捉了建筑内容文本的语义信息，并为后续的相似度计算提供了丰富的特征表示。

接着，为了确保召回的建筑内容文本能够全面地反映用户的兴趣，将每个兴趣点都视为一个独立的召回通路。在每一个召回通路中，计算待召回建筑内容文本的嵌入向量与相应的记忆单元的状态向量之间的余弦相似度。这个相似度值提供了一个量化的指标，表示了待召回建筑内容文本与用户某个兴趣点的匹配程度。

在每一个召回通路中，选择相似度最高的前N个建筑内容文本。这样，从各个召回通路召回的建筑内容文本经过排序、去重后，汇总成为最终的召回结果。

多路兴趣召回的设计保证了推荐内容的多样性和全面性，确保用户不仅能接触到与用户的当前主要兴趣点高度匹配的内容，还能发现与其他次要或潜在兴趣相关的内容，进一步提升推荐的效果和用户的满意度。

实施例

以用户实际推荐为例，本实施例中的具体实施方式如下：

1.内容预处理和表示：

当用户首次访问平台，系统将展示的建筑内容文本进行文本预处理，利用专有词库进行分词，确保建筑相关的专业术语得到正确和精确地切分。分词完成后，这些文本通过BERT模型转化为高维的嵌入向量。

2.初始化用户兴趣模型：

对于新用户，系统会初始化一个记忆网络，其中的记忆单元数量是预设的，每个记忆单元代表一个可能的兴趣点。

3.用户互动：

用户开始浏览建筑内容，例如他浏览了“现代住宅设计”和“3D打印建筑”的内容。对于他浏览的每篇建筑内容，都会计算其与每个记忆单元的余弦相似度。这些相似度可以帮助系统判断用户可能的兴趣点。

4.更新记忆网络：

根据用户的浏览行为和互动，对应的记忆单元会通过门控机制（重置门和更新门）进行动态更新。具体地，使用用户浏览的建筑内容的嵌入向量和与之相关的兴趣文本嵌入向量来更新记忆单元的状态。

5.多路兴趣召回：

当用户再次访问或需要推荐时，系统会从备选的建筑内容中选取文本，再通过BERT模型转化为嵌入向量。对于每个兴趣点（记忆单元），系统计算待召回内容的嵌入向量与该记忆单元状态向量之间的余弦相似度。在每一个召回通路中，选择相似度最高的前N个内容。

6.生成推荐列表：

根据各个记忆单元召回的结果，系统进行排序和去重，生成最终的推荐列表。例如，系统发现用户对“现代住宅设计”有很高的兴趣，会推荐与这个话题高度相关的内容。但同时，为了满足多样性需求，也会推荐一些与他的次要或潜在兴趣点相关的内容，如“绿色建材”或“建筑自动化”。

7.持续学习：

随着用户在平台上的持续互动，记忆网络会不断地进行更新，更好地捕捉到他的实时兴趣变化。

通过上述过程，系统可以为用户提供个性化、多样化的建筑内容推荐，使其在浏览时既能找到自己喜欢的内容，又能发现新的有趣话题。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于记忆网络的建筑领域内容多兴趣召回方法，包括以下步骤：

所述门控机制为第个记忆单元引入重置门和更新门：

；

其中，，表示记忆网络中记忆单元的总数，表示激活函数；表示第个记忆单元的状态向量，表示与第个记忆单元相关的兴趣文本嵌入向量，、、、、和均为权重矩阵；

计算第个记忆单元的候选更新状态向量：；

，；

将所有召回通路中筛选出的建筑内容文本进行排序、去重，得到针对所述用户U的召回结果。

2.根据权利要求1所述的一种基于记忆网络的建筑领域内容多兴趣召回方法，其特征在于，步骤三中，预测用户U对建筑内容文本的喜好程度时，具体包括：

，；

将所有记忆单元对应的余弦相似度组合为相似度向量；

3.根据权利要求1所述的一种基于记忆网络的建筑领域内容多兴趣召回方法，其特征在于，所述建筑子领域包括住宅设计、商业建筑设计、历史建筑修复、城市规划、景观设计、室内设计、环境友好建筑、结构工程、材料和施工技术，以及建筑理论和历史；