CN111858901A

CN111858901A - 一种基于语义相似的文本推荐方法及系统

Info

Publication number: CN111858901A
Application number: CN201910360306.0A
Authority: CN
Inventors: 李青龙; 骆飞; 彭璿韜; 安龙波; 王镇
Original assignee: Beijing Smart Starlight Information Technology Co ltd
Current assignee: Beijing Smart Starlight Information Technology Co ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-10-30

Abstract

一种基于语义相似的文本推荐方法及系统，包括：根据采集的论坛文本建立语义识别模型和其他多种类别模型；根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息；将论坛文本和论坛文本对应的打标签画像结果信息，按照一种标签一列的方式存储到Elasticsearch中；对一论坛文本进行画像生成对应的打标签画像结果信息，根据打标签画像结果信息中各标签，在Elasticsearch中进行模糊查询，完成对该论坛文本的推荐。本发明解决了当前文本推荐系统的推荐内容呆板、延展性低、乏味或使用户视野狭小，推荐内容过于单调及影响用户浏览体验等问题。

Description

一种基于语义相似的文本推荐方法及系统

技术领域

本发明涉及计算机和自然语言处理技术领域，尤其涉及一种基于语义相似的文本推荐方法及系统。

背景技术

随着互联网的广泛应用，海量的信息呈指数式爆炸增长。互联网的蓬勃发展，催生了一批又一批互联网企业。互联网企业自诞生之日起就会和一个词密不可分，那就是“活跃用户量”，互联网企业为了追求用户活跃度也是各显其招，其中用户论坛就是维持并提高用户活跃度的重要手段。例如，互联网美容企业的用户论坛，各大手机品牌的用户论坛，互联网招聘公司的用户论坛等等。而论坛维持并提高用户活跃度的非常重要的一个手段就是通过文本推荐技术向用户推荐用户可能感兴趣的文本，来提高用户粘性，增加用户的访问频率和访问时间，从而达到提高企业热度、知名度、乃至舆论风险把控等目的

根据大量的调查验证发现,网络上的网络论坛目前的推荐技术基本有两种，一种是基于TF-IDF的关键词solar/Elasticsearch检索相似推荐技术(传统文本推荐技术)，一种是基于用户和文本画像的协同过滤推荐技术。第一种文本推荐技术存在死板，过于局限于文本相似，推荐结果没有扩展性，不能达到推荐的多样性、蔓延性，在短期之内就可以造成用户出现厌倦心理，提高用户活跃度的效果十分有限。第二种文本推荐技术主要得益于大数据技术的快速发展，目前被广泛应用于各种推荐场景中。通过大数据对用户标签矩阵和文本标签矩阵的计算对用户进行基于兴趣的文本推荐，该方法由于根据用户的兴趣进行推荐，由于通过兴趣导向，所以短期内会能够快速达到提高用户活跃度的目的，但是由于过于推荐范围过于狭小，时间久了会造成用户视野狭小，推荐内容单一，影响用户浏览体验，反而对用户活跃度造成损害，而且用户存在隐私泄露顾虑。另外第二种方法还存在对极端资源需求过大问题。

因此，如何提供一种新的文本推荐的技术方案，就成为了当前需要解决的问题。

发明内容

本发明的目的是提供一种基于语义相似的文本推荐方法及系统，用以解决当前文本推荐系统的推荐内容呆板、延展性低、乏味或使用户视野狭小，推荐内容过于单调及影响用户浏览体验等问题。

为实现上述目的，本发明提供了一种基于语义相似的文本推荐方法及系统，包括：

根据采集的论坛文本建立语义识别模型和其他多种类别模型，其中建立各类别模型的步骤包括：对论坛文本进行聚类并生成聚类结果后，根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集；其中，其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型；

根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息；

将论坛文本和论坛文本对应的打标签画像结果信息，按照一种标签一列的方式存储到Elasticsearch中；

对一论坛文本进行画像生成对应的打标签画像结果信息，根据打标签画像结果信息中各标签，在Elasticsearch中进行模糊查询，完成对该论坛文本的推荐。

本发明还提供了一种基于语义相似的文本推荐系统，包括：

数据采集模块，用于采集论坛文本信息；

建立模型模块，用于根据采集的论坛文本信息建立语义识别模型和其他多种类别模型，其中对论坛文本进行聚类并生成聚类结果后，根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集；其中，其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型；

文本画像模块，用于根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息；

存储模块，用于将论坛文本和论坛文本对应的打标签画像结果信息，按照一种标签一列的方式存储到Elasticsearch中；及

文本推荐模块，用于对一论坛文本进行画像生成对应的打标签画像结果信息，根据打标签画像结果信息中各标签，在Elasticsearch中进行模糊查询，完成对该论坛文本的推荐。

应用本发明提供的基于语义相似的文本推荐方法及系统，通过以语义类别为着重点，画像的多种维度为辅助，解决了传统基于文本相似推荐系统的呆板、局限于文本相似的问题。通过只对文本进行画像，用画像结果作为Elasticsearch为相似检索的条件，解决了基于协同过滤的文本推荐技术存在的用户隐私顾虑、性能低、资源消耗大、推荐文本类别固定、用户厌倦感等问题。从而实现了高性价比、推荐灵活多变、语义相似、无隐私顾虑的文本推荐。

附图说明

此处所说明的附图用于提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明的基于语义相似的文本推荐方法的流程图；

图2为本发明一实例提供的基于语义相似的文本推荐方法流程图。

图3为本发明实施例提供的基于语义相似的文本推荐系统的结构示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明中的实施例将以某个求职论坛做文本推荐时为例进行描述，但权利要求不仅限于求职论坛。

图1为本发明实施例提供的基于语义相似的文本推荐方法流程图。如图1所示，本发明的基于语义相似的文本推荐方法，包括以下步骤：

步骤110、根据采集的论坛文本建立语义识别模型和其他多种类别模型，其中建立各类别模型的步骤包括：对论坛文本进行聚类并生成聚类结果后，根据聚类结果确定用于训练各类别模型的论坛文本的对应类别模型的类别集；其中，其他多种类别模型包括情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型和/或TF-IDF关键词提取模型；

所述根据采集的论坛文本建立语义识别模型和其他多种类别模型的步骤，包括：

根据采集的论坛文本通过机器学习方式建立语义识别模型和其他多种类别模型。采用机器学习的方式建立模型可以有效保证画像的标签正确率和召回率，其中模型的实现具体算法和优化可以根据实际情况进行选择。

所述根据采集的论坛文本建立语义识别模型、情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位识别模型、性别识别模型、年龄识别模型或TF-IDF文本关键词模型的步骤，还包括：

根据采集的论坛文本和确定画像所需的维度信息，建立对应的模型，其中，维度信息包括：语义类别、情感类别、情绪类别、地理类别、情感关键词类别、行业类别、职位类别、性别类别、年龄类别或TF-IDF文本关键词类别。除了TF-IDF文本关键词提取模型，其他模型都需要依靠用户需要打标后的样本进行对应的模型训练。

所述将采集的论坛文本通过机器学习方式建立语义识别模型的步骤，还包括：通过文本聚类算法对论坛文本进行聚类并生成聚类结果后，根据聚类结果确定用于训练语义识别模型的论坛文本语义类别集，建立语义识别模型。其中语义识别模型的建立人工成本太高，所以可以通过文本聚类算法辅助用户来确定语义类别体系，减少语义识别模型的人工成本。

步骤120、根据建立的多种类别模型对论坛文本进行训练生成打标签画像；

在本步骤中，只需要对论坛文本进行训练生成打标签画像，其中不需要对用户进行训练生成打标签画像。从根本上杜绝了对用户隐私造成侵犯的可能性。解决了当下用户对推荐算法的隐私顾虑问题。

步骤130、将论坛文本和论坛文本对应的打标签画像结果信息，按照一种标签一列的方式存储到Elasticsearch中；

步骤140、对一论坛文本进行画像生成对应的打标签画像结果信息，根据打标签画像结果信息中各标签，在Elasticsearch中进行模糊查询，完成对该论坛文本的推荐。

其中Elasticsearch和机器学习技术结合，通过对画像结果进行侧重检索的方式来实现基于语义的相似性推荐，降低了计算资源消耗实现对论坛海量文本的相似推荐。

所述对一论坛文本进行画像生成对应的打标签画像结果信息，根据打标签画像结果信息中各标签，在Elasticsearch中进行模糊查询，完成对该论坛文本的推荐的步骤，还包括：

所述对一论坛文本进行画像生成对应的打标签画像结果信息，判断若存在通过语义识别模型对论坛文本进行训练生成打标签画像的操作，则首先根据语义类别在Elasticsearch中进行模糊查询，对该论坛文本进行推荐。其中采用了语义识别模型(语义识别模型最为重要)，画像中有语义类别，将语义类别作为是推荐查询的首个条件，也就意味着语义类别在查询中的权重最高，会侧重语义相似进行查询，满足了用户需要的论坛文本的推荐。

具体实例，如图2所示，本发明实施例的基于语义相似的文本推荐方法包括：

步骤101，根据对论坛文本进行调研确定文本画像的维度；

具体的，当要针对某个论坛做文本推荐时，首先要对论坛文本进行调研，目的是确定文本画像的维度，进而可以对文本进行画像。

步骤102，根据根用户选择确定文本画像的维度信息；

具体地，如图2所示，文本画像的维度信息由语义类别、情感类别、行业类别和其他类别构成。

在一个具体的实施例中，需要用户确定画像需要哪些维度信息，也就是在哪些方面对文本进行画像，然后根据需要的维度信息建立对应的模型。

步骤103，根据对需求的理解和对文本的调研确定文本画像的维度信息内每个文本画像的维度的类别集标准；

具体地，根据步骤102得到的文本画像的维度信息，确定每个文本画像的维度对应的类别集标准。

例如，情感是要分为(正面情感，负面情感，中立情感)还是要分为(疑似正面情感，正面情感，疑似负面情感，负面情感，中立情感)。这些类别集标准来源于对需求的理解和对文本的调研。其中，语义类别比较特殊，根据对论坛现有文本进行无监督聚类，然后依靠用户结合聚类结果作为辅助去定出语义类别集标准，而其余类别根据用户确定类别中的类别集标准。

步骤104，根据用户协助进行标注与语料准备并完成数据标注；

具体地，如图2所示，根据步骤103确定所有的文本画像的维度类别集标准后，就可以开始用户准备标注与语料，即数据标注过程。

步骤105，根据机器学习技术分门别类的针对每个画像的维度进行模型训练；

具体地，根据步骤104完成数据标注之后，合理的运用机器学习技术，分门别类的针对每个画像的维度进行模型训练。即模型训练过程。

其中，根据机器学习技术建立的各种模型是建立文本画像的维度体系过程中根据需要建立各种类别模型中效果最好的。

在一个具体的实施例中，各种模型具体包括：语义识别模型、情感识别模型、情绪识别模型、地理识别模型、情感关键词提取模型、行业识别模型、职位别别模型、性别识别模型、年龄识别模型和TF-IDF关键词提取模型等。

具体的，文本画像的维度体系通过机器学习的方式建立各个维度的模型，根据机器学习的方式建立的维度的模型可以有效保证画像的标签正确率和召回率。各个维度的模型实现具体算法和优化可以根据实际情况选择。

在一个具体的实施例中，各个维度的模型具体包括：语义类别模型、情感类别模型、行业类别模型和其他模型；各个维度的模型建立初期需要依靠用户确定画像所需维度信息，待确定所需维度信息后建立对应的模型。

其中，维度的模型中除了TF-IDF关键词提取模型,其他的模型全部需要根据依靠用户打标后的样本进行对应的模型训练；语义类别模型由于建立所需的人工成本太高，可以通过文本聚类算法辅助用户确定语义类别体系，从而降低人工成本；语义识别模型通过对论坛文本进行聚类，再根据聚类结果辅助用户确定论坛文本语义类别集，用于训练语义类别模型。

步骤106，将通过模型训练得到的多个维度模型组成文本画像模型。

具体地，文本画像模型是有多个维度的模型组成，当所有的画像的维度模型都训练完成后，就表示文本画像模型训练完成。

下面以一个具体实施方式做具体阐述。在该具体实施方式中，首先要对论坛文本进行调研并确定文本画像的维度，文本画像的维度信息需要用户确定，也就是在哪些方面对文本进行画像，然后根据对需求的理解和对文本的调研确定每个方面的画像的维度类别集标准，确定所有的文本画像的维度类别集标准后，根据用户进行标注与语料准备完成数据标注，即数据标注过程。完成数据标注之后，合理的运用机器学习技术，分门别类的针对每个画像的维度进行模型训练，即模型训练过程。通过模型训练得到的多个维度模型(语义类别模型、情感类别模型、行业类别模型和其他(...)模型)组成文本画像模型。

图3为本发明实施例提供的基于语义相似的文本推荐系统运行流程图。如图3所示，本发明实施例的基于语义相似的文本推荐系统，包括：数据采集模块、建立模型模块、文本画像模块、存储模块和文本推荐模块，其中，

数据采集模块，用于采集论坛文本信息；

存储模块，用于将论坛文本和论坛文本对应的打标签画像结果信息，按照一种标签一列的方式存储到Elasticsearch中；

所述建立模型模块根据采集的论坛文本建立语义识别模型和其他多种类别模型，具体是指：所述建立模型模块通过机器学习方式，根据采集的论坛文本和确定画像所需的维度信息，建立对应的模型，其中，维度信息包括：语义类别、情感类别、情绪类别、地理类别、情感关键词类别、行业类别、职位类别、性别类别、年龄类别或TF-IDF文本关键词类别。

所述建立模型模块将采集的论坛文本通过机器学习方式建立语义识别模型，具体是指：建立模型模块通过文本聚类算法对论坛文本进行聚类并生成聚类结果后，根据聚类结果确定用于训练语义识别模型的论坛文本语义类别集，建立语义识别模型。

所述文本推荐模块对一论坛文本进行画像生成对应的打标签画像结果信息，根据打标签画像结果信息中各标签，在Elasticsearch中进行模糊查询，完成对该论坛文本的推荐，具体是指：

所述文本推荐模块对一论坛文本进行画像生成对应的打标签画像结果信息，判断若存在通过语义识别模型对论坛文本进行训练生成打标签画像的操作，则首先根据语义类别在Elasticsearch中进行模糊查询，对该论坛文本进行推荐。

下面以一个具体实施方式做具体阐述。在该具体实施方式中，如图3所示，首先将论坛的文本历史，通过文本画像模型进行多维度打标，然后存储到Elasticsearch库中，作为待推荐文本的总数据集。这是模型训练后首先要做的准备工作。当用户在论坛文本中查看一个文本，假设这个文本是用户比较感兴趣的文本，为了便于吸引用户点击和引起注意力，论坛需要为用户准备好所查看内容的文本。而语义相似文本无疑是最好的选择。此时将用户所查看的文本送入系统，系统首先对该文本进行画像，之后将得到的画像结果作为Elasticsearch检索文本的条件，进行多条件模糊查询，查询条件中语义标签需要作为首要查询条件，其他条件的顺序安排可以根据具体业务细节调整。如图2所示输出将查询结果反馈至用户，我们就完成了一次基于机器学习的语义相似文本推荐，然后用户不断点击新的文本，不断通过本发明的基于机器学习的语义相似文本推荐系统进行推荐。就达到了吸引用户点击和注意力，提高用户活跃度的目的。

本发明实施例提供的基于语义相似的文本推荐方法及系统，通过以语义类别为着重点，画像的多种维度为辅助，解决了传统基于文本相似推荐系统的呆板、局限于文本相似的问题。通过只对文本进行画像，用画像结果作为Elasticsearch为相似检索的条件，解决了基于协同过滤的文本推荐技术存在的用户隐私顾虑、性能低、资源消耗大、推荐文本类别固定、用户厌倦感等问题。从而实现了高性价比、推荐灵活多变、语义相似、无隐私顾虑的文本推荐。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义相似的文本推荐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

根据采集的论坛文本通过机器学习方式建立语义识别模型和其他多种类别模型。

3.根据权利要求2所述的方法，其特征在于，

根据采集的论坛文本和确定画像所需的维度信息，建立对应的模型，其中，维度信息包括：语义类别、情感类别、情绪类别、地理类别、情感关键词类别、行业类别、职位类别、性别类别、年龄类别或TF-IDF文本关键词类别。

4.根据权利要求2所述的方法，其特征在于，

所述将采集的论坛文本通过机器学习方式建立语义识别模型的步骤，还包括：通过文本聚类算法对论坛文本进行聚类并生成聚类结果后，根据聚类结果确定用于训练语义识别模型的论坛文本语义类别集，建立语义识别模型。

5.根据权利要求4所述的方法，其特征在于，

所述对一论坛文本进行画像生成对应的打标签画像结果信息，判断若存在通过语义识别模型对论坛文本进行训练生成打标签画像的操作，则首先根据语义类别在Elasticsearch中进行模糊查询，对该论坛文本进行推荐。

6.根据权利要求2所述的方法，其特征在于，

所述根据建立的多种类别模型对论坛文本进行训练生成各打标签画像结果信息的步骤，进一步包括：只需要对论坛文本进行训练生成打标签画像，其中不需要对用户进行训练生成打标签画像。

7.一种基于语义相似的文本推荐系统，其特征在于，包括：

数据采集模块，用于采集论坛文本信息；

8.根据权利要求7所述的系统，其特征在于，

9.根据权利要求8所述的系统，其特征在于，

10.根据权利要求9所述的系统，其特征在于，