CN113515699A

CN113515699A - 信息推荐方法及装置、计算机可读存储介质、处理器

Info

Publication number: CN113515699A
Application number: CN202110668849.6A
Authority: CN
Inventors: 刘伟煜; 陈靖; 琚赵兵; 张虎; 唐璇
Original assignee: Postal Savings Bank of China Ltd
Current assignee: Postal Savings Bank of China Ltd
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-10-19
Anticipated expiration: 2041-06-16
Also published as: CN113515699B

Abstract

本发明公开了一种信息推荐方法及装置、计算机可读存储介质、处理器。其中，该方法包括：获取目标对象的主题标签，其中，主题标签从目标对象提交的预定数据流中提取得到；通过预定推荐模型，确定与主题标签对应的推荐数据，其中，预定推荐模型为使用多组训练数据通过在线机器学习训练得到的，多组训练数据中每组训练数据均包括：主题标签与主题标签对应的推荐数据，推荐数据为推荐给目标对象的推荐对象的标识信息；将推荐数据发送至目标对象。本发明解决了相关技术中使用的人员推荐方法均基于离线学习训练得到的模型，存在滞后性，无法比较及时地为用户提供所需信息的技术问题。

Description

信息推荐方法及装置、计算机可读存储介质、处理器

技术领域

本发明涉及信息处理技术领域，具体而言，涉及一种信息推荐方法及装置、计算机可读存储介质、处理器。

背景技术

推荐系统根据用户的信息需求、行为和兴趣，将用户感兴趣的信息和产品推荐给用户，是互联网时代解决信息过载的有效方法之一。人员推荐，例如，社交网络中好友推荐也是推荐系统的应用场景之一。其中相关技术中有提出远程教育社交网络中学习伙伴自动推荐方法及其系统，其从个人信息、学业信息以及伙伴关系三个方面来综合评估人员之间的紧密度，推荐紧密度高的人员作为学习伙伴。但是，紧密度计算中指标的选择和权重值的分配都是由人工自定义规则指定，受人为主观影响大且当数据源发生变化时需要相应地人工调整指标和权重值，人力成本高。此外相关技术中也有提出混合博文与用户关系的社交媒体好友推荐方法，其使用有监督的数据降维方法LDA等自然语言处理技术计算人员之间的博文相似度，作为伙伴推荐的依据之一。但是该推荐方法使用的语义上下文信息可解释性不够好。

而且，上述人员推荐方法均是采用离线学习方法训练模型，先对完整的数据集进行训练，接着需要等待模型训练结束才能进行预测，无法增量地更新模型以实现边训练边预测，预测得到的推荐结果存在滞后性，不能满足人员实时推荐的要求。例如，当员工数量达到一定数量级时，可能存在员工A提交了技术问题的求助帖的同时就有另一位员工B恰好提交了关于这个问题的经验总结即解答记录，现有人员推荐方法中的离线学习会在日终等某个固定时间点针对全量的语料花费数小时重新训练模型，虽然最终得到的模型也能正确地将员工B作为工作伙伴推荐给员工A，但是存在滞后性，无法提供实时帮助。其次离线学习所使用的数据集和最终得到的模型需要全量保存，对软硬件资源要求高。

针对上述相关技术中使用的人员推荐方法均基于离线学习训练得到的模型，存在滞后性，无法比较及时地为用户提供所需信息的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种信息推荐方法及装置、计算机可读存储介质、处理器，以至少解决相关技术中使用的人员推荐方法均基于离线学习训练得到的模型，存在滞后性，无法比较及时地为用户提供所需信息的技术问题。

根据本发明实施例的一个方面，提供了一种信息推荐方法，该方法包括：获取目标对象的主题标签，其中，所述主题标签从所述目标对象提交的预定数据流中提取得到；通过预定推荐模型，确定与所述主题标签对应的推荐数据，其中，所述预定推荐模型为使用多组训练数据通过在线机器学习训练得到的，所述多组训练数据中每组训练数据均包括：主题标签与所述主题标签对应的推荐数据，所述推荐数据为推荐给所述目标对象的推荐对象的标识信息；将所述推荐数据发送至所述目标对象。

可选地，获取目标对象的主题标签，所述方法还包括：获取所述目标对象提交的所述预定数据流；确定所述预定数据流中的关键词序列；确定关键词序列中每一个关键词的内容标签，得到多个内容标签；确定所述多个内容标签中权重大于预定阈值的部分内容标签为所述主题标签。

可选地，在获取所述目标对象提交的所述预定数据流之后，所述方法还包括：为所述预定数据流中的每条预定数据添加时间戳。

可选地，确定所述预定数据流中的关键词序列，所述方法还包括：对所述预定数据流中的每条预定数据进行预处理，其中，所述预处理包括：分词操作、无效数据的过滤操作；确定预处理后的所述预定数据流中每个分词结果的特征值，其中，所述特征值包括：TF-IDF值、TextRank值；基于所述每个分词结果的特征值分别生成所述每个分词结果对应的序列表；从所述序列表中截取特征值大于预设数值的目标分词结果；将所述目标分词结果作为元素得到所述关键词序列。

可选地，确定关键词序列中每一个关键词的内容标签，得到多个内容标签，所述方法还包括：将所述关键词序列中的每一个关键词分别与预定标签进行匹配，得到匹配结果；基于所述匹配结果确定所述每一个关键词的内容标签，得到所述多个内容标签。

可选地，将所述关键词序列中的每一个关键词分别与预定标签进行匹配，所述方法还包括：利用词向量确定模型，确定所述每一个关键词与所述预定标签的词向量；确定所述每一个关键词与所述预定标签的词向量之间的余弦相似度。

可选地，确定所述多个内容标签中权重大于预定阈值的部分内容标签为所述主题标签，所述方法还包括：确定所述多个内容标签中每一个内容标签相对于所述目标对象的重要性权重；确定所述多个内容标签中每一个内容标签相对于所述目标对象的稀缺性权重；确定所述多个内容标签中每一个内容标签的时间衰减系数；基于所述重要性权重、所述稀缺性权重以及所述时间衰减系数确定所述多个内容标签中每一个内容标签的权重；将所述多个内容标签中权重大于所述预定阈值的部分标签作为所述主题标签。

可选地，在将所述推荐数据发送至所述目标对象之后，所述方法还包括：利用所述主题标签对所述预定推荐模型进行更新。

根据本发明实施例的另一方面，还提供了一种信息推荐的装置，该装置包括：获取模块，用于获取目标对象的主题标签，其中，所述主题标签从所述目标对象提交的预定数据流中提取得到；确定模块，用于通过预定推荐模型，确定与所述主题标签对应的推荐数据，其中，所述预定推荐模型为使用多组训练数据通过在线机器学习训练得到的，所述多组训练数据中每组训练数据均包括：主题标签与所述主题标签对应的推荐数据，所述推荐数据为推荐给所述目标对象的推荐对象的标识信息；发送模块，用于将所述推荐数据发送至所述目标对象。

可选地，该信息推荐装置还包括：第一获取单元，用于获取所述目标对象提交的所述预定数据流；第一确定单元，用于确定所述预定数据流中的关键词序列；第二确定单元，用于确定关键词序列中每一个关键词的内容标签，得到多个内容标签；第三确定单元，用于确定所述多个内容标签中权重大于预定阈值的部分内容标签为所述主题标签。

可选地，该信息推荐装置还包括：添加模块，用于在获取所述目标对象提交的所述预定数据流之后，为所述预定数据流中的每条预定数据添加时间戳。

可选地，该信息推荐装置还包括：预处理子单元，用于对所述预定数据流中的每条预定数据进行预处理，其中，所述预处理包括：分词操作、无效数据的过滤操作；第一确定子单元，用于确定预处理后的所述预定数据流中每个分词结果的特征值，其中，所述特征值包括：TF-IDF值、TextRank值；生成子单元，用于基于所述每个分词结果的特征值分别生成所述每个分词结果对应的序列表；截取子单元，用于从所述序列表中截取特征值大于预设数值的目标分词结果；第二确定子单元，用于将所述目标分词结果作为元素得到所述关键词序列。

可选地，该信息推荐装置还包括：匹配子单元，用于将所述关键词序列中的每一个关键词分别与预定标签进行匹配，得到匹配结果；第三确定子单元，用于基于所述匹配结果确定所述每一个关键词的内容标签，得到所述多个内容标签。

可选地，该信息推荐装置还包括：第四确定子单元，用于利用词向量确定模型，确定所述每一个关键词与所述预定标签的词向量；第五确定子单元，用于确定所述每一个关键词与所述预定标签的词向量之间的余弦相似度。

可选地，该信息推荐装置还包括：第六确定子单元，用于确定所述多个内容标签中每一个内容标签相对于所述目标对象的重要性权重；第七确定子单元，用于确定所述多个内容标签中每一个内容标签相对于所述目标对象的稀缺性权重；第八确定子单元，用于确定所述多个内容标签中每一个内容标签的时间衰减系数；第九确定子单元，用于基于所述重要性权重、所述稀缺性权重以及所述时间衰减系数确定所述多个内容标签中每一个内容标签的权重；第十确定子单元，用于将所述多个内容标签中权重大于所述预定阈值的部分标签作为所述主题标签。

可选地，该信息推荐装置还包括：更新模块，用于在将所述推荐数据发送至所述目标对象之后，利用所述主题标签对所述预定推荐模型进行更新。

根据本发明实施例的另外一个方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述计算机可读存储介质所在设备执行上述中任一项所述的信息推荐方法。

根据本发明实施例的另外一个方面，还提供了一种处理器，所述处理器用于运行计算机程序，其中，所述计算机程序运行时执行上述中任一项所述的信息推荐方法。

在本发明实施例中，获取目标对象的主题标签，其中，主题标签从目标对象提交的预定数据流中提取得到；通过预定推荐模型，确定与主题标签对应的推荐数据，其中，预定推荐模型为使用多组训练数据通过在线机器学习训练得到的，多组训练数据中每组训练数据均包括：主题标签与主题标签对应的推荐数据，推荐数据为推荐给目标对象的推荐对象的标识信息。通过本发明实施例提供的信息推荐方法，实现了将推荐数据发送至目标对象，实现了可以推荐工作伙伴的目的，达到了提高工作伙伴推荐结果的时效性和准确度的技术效果，进而解决了相关技术中使用的人员推荐方法均基于离线学习训练得到的模型，存在滞后性，无法比较及时地为用户提供所需信息的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的信息推荐方法的流程图；

图2是根据本发明实施例的内容标签的确定方法的流程图；

图3是根据本发明实施例的确定多个内容标签中每一个内容标签的权重的方法的流程图；

图4是根据本发明实施例的基于Spark Streaming在线学习的工作伙伴推荐方法的流程图；

图5是根据本发明实施例的信息推荐的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，下面对本发明实施例中出现的部分名词或术语进行说明。

Spark Streaming：Spark Streaming是Spark核心应用程序编程接口API的一个扩展，可以实现高吞吐量的，具备容错机制的实时流数据处理；Spark Streaming可以通过离散化流将接收到的实时流数据，按照一定时间间隔，对数据进行拆分，交给Spark Engine引擎，最终得到一批批的结果。本发明中利用Spark Streaming从Kafka、Flume实时接收员工工作记录语料流并进行标签提取和标签权重值计算等实时数据流处理。

在线学习：在线学习并不是一种模型，而是一种模型的训练方法，在线学习能够根据线上反馈数据，实时快速地进行模型调整，使得模型及时反映线上的变化，提高线上预测的准确率；相比于离线学习，在线学习是以对训练数据通过完全增量的形式顺序处理一遍为基础(即一次只训练一个样例)。当处理完每一个训练样本，模型会对测试样例做预测并得到正确的输出(例如得到分类的标签或者回归的真实目标)。在线学习的思想是模型能够随着接收到新的消息不断更新自己，而不是想离线学习一次次重新训练。

工作伙伴推荐：工作伙伴推荐属于人员推荐，本发明根据员工提交的工作语料信息来为员工推荐工作中兴趣点和关注点相同的伙伴。

TF-IDF：是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。本发明在标签权重值的计算中引入tfidf思想来评估标签对于员工的重要性和稀缺性。

textrank：是通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词。本发明在员工工作语料的关键词提取中综合使用textrank和tfidf。

word2vec：是一群用来产生词向量的相关模型；这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。本发明中使用word2vec将关键词转换成词向量，依次预定标签进行匹配。

聚类分析：聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。人员推荐中利用聚类分析实现人员分群，聚类结果中同属于一个类族的人员被认为具有类似的属性或者行为，可以进行相互推荐。

针对以上问题，本发明实施例利用员工语料来加工工作内容标签，在计算标签权重值的过程中引入了tfidf思想和时间衰减函数，综合考虑了标签对于员工的重要性、稀缺性和时效性，通过权重值从工作内容标签中筛选出可以表征员工主要工作关注点和兴趣点的主题标签。

通过该基于Spark Streaming框架实现了员工语料的实时接收，文本特征的实时提取，标签权重值的实时计算，人员聚类模型的在线学习和工作伙伴的实时推荐等从一整套实时流方法，利用在线学习根据连续输入的员工语料流增量地更新模型，及时给出合理的推荐结果，适用于海量员工语料流数据的工作伙伴推荐场景，所使用的数据集实时导入实时消费，进行一次性分析处理，不需要全量保存。

具体地，首先从员工工作记录语料中提取出工作内容标签，然后通过权重值筛选出表征员工工作关注点和兴趣点的主题标签，以主题标签为特征建模得到的聚类模型给出的工作伙伴推荐结果准确合理。本发明实施例提供的信息推荐方法使用了在线学习方法来增量训练模型，实时接收员工工作记录语料流来实时更新模型，并依据最新的聚类模型给出的推荐结果相比于离线学习得到的推荐结果时效性更高。

下面通过具体实施例对本发明提供的信息推荐方法及装置进行说明。

实施例1

根据本发明实施例，提供了一种信息推荐方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的信息推荐方法的流程图，如图1所示，该信息推荐方法包括如下步骤：

步骤S102，获取目标对象的主题标签，其中，主题标签从目标对象提交的预定数据流中提取得到。

可选的，上述主题标签可以是与工作内容、员工状态(例如，员工的发表的状态信息、社区论坛问题求助、工作表现状态、工作会议记录、学习经验总结、工作文档记录等)相关的标签。

可选的，这里的主题标签可以是不同的技术领域等大标签，也可以是对大标签细化之后的小标签。

可选的，这里的预定数据流中的每条数据之前要经过预处理，包括但不限于：分词操作、无效数据的过滤操作、数据清理、数据集成、数据归约等方法。

步骤S104，通过预定推荐模型，确定与主题标签对应的推荐数据，其中，预定推荐模型为使用多组训练数据通过在线机器学习训练得到的，多组训练数据中每组训练数据均包括：主题标签与主题标签对应的推荐数据，推荐数据为推荐给目标对象的推荐对象的标识信息。

步骤S106，将推荐数据发送至目标对象。

由上可知，在本发明实施例中，可以在获取目标对象的主题标签后，然后通过预定推荐模型，确定与主题标签对应的推荐数据，并将推荐数据发送至目标对象，实现了通过在线学习的方式向目标对象推荐所需内容的目的，达到了信息分享的及时性的技术效果。

因此，通过本发明实施例提供的信息推荐方法，解决了相关技术中使用的人员推荐方法均基于离线学习训练得到的模型，存在滞后性，无法比较及时地为用户提供所需信息的技术问题。

作为一种可选地实施例，获取目标对象的主题标签，可以包括：获取目标对象提交的预定数据流；确定预定数据流中的关键词序列；确定关键词序列中每一个关键词的内容标签，得到多个内容标签；确定多个内容标签中权重大于预定阈值的部分内容标签为主题标签。

例如，客户端可以获取目标对象填写的工作记录信息，该内容包含但不局限于：说说、问题求助，工作状态、会议记录、经验总结、文档记录等。

其中，上述获取目标对象提交的预定数据流的方式可以为从kafka、flume实时流接收和从数据库实时读取到Spark Streaming中进行实时处理等。

在该实施例中，在确定预定数据流中的关键词序列之前，需要进行关键词的提取。在本发明实施例中，关键词的提取可通过以下方式来实现：首先对每份工作记录对应的文本内容进行加载词典的中文分词和去除停用词处理。词典包括j ieba分词库、ik分词库等通用词典和IT、医药等特定领域的词典，假设员工都是IT从业人员，加载的词典中就应该包括完整性约束、索引树、日志文件等专业词汇，另外还可以加载自定义词典。

作为一种可选地实施例，在获取目标对象提交的预定数据流之后，该方法还可以包括：为预定数据流中的每条预定数据添加时间戳。

在该实施例中，当员工(即，上下文中的目标对象)每次提交的工作记录后，提交的工作记录会被独立保存并标记上时间戳，当员工数量达到一定量级，存在同一时间段内有多个员工同时填写工作记录的并发情况，便于后续对员工提交的工作记录进行多维度分析，例如，可以分析在某个时间点上员工提交工作记录的数量。

作为一种可选地实施例，确定预定数据流中的关键词序列，可以包括：对预定数据流中的每条预定数据进行预处理，其中，预处理包括：分词操作、无效数据的过滤操作；确定预处理后的预定数据流中每个分词结果的特征值，其中，特征值包括：TF-IDF值、TextRank值；基于每个分词结果的特征值分别生成每个分词结果对应的序列表；从序列表中截取特征值大于预设数值的目标分词结果；将目标分词结果作为元素得到关键词序列。

在该实施例中，在对预定数据进行分词操作时，使用的分词工具可以是，jieba分词器、Ansj分词器，这里不做限制。

在该实施例中，无效词过滤可以是过滤掉预定数据中的停用词。

另外，上述分词后的词语的TF-IDF值、TextRank值可以使用spark MLlib中的文本处理模块计算，也可以使用python中sklearn库计算，这里不做限制。接着分别计算分词词语的TF-IDF值、TextRank值形成<词语，TF-IDF值>和<词语，TextRank值>键值对列表(即，序列表)，根据TF-IDF值、TextRank值从大到小对列表中键值对进行排序，截取两组列表值最大的前N个键值对中共现的词语作为该条工作记录的关键词。其中，N为正整数，根据具体数据情况进行设置。

例如，员工P提交了关于机器学习算法的技术问题总结P，对该工作记录所对应文本进行分词后得到的词语和TF-IDF值用键值对列表按照TF-IDF值从大到小排序表示为[<支持向量机，0.6>、<超参数，0.5>、<核函数，0.4>、<调优，0.3>……]，得到词语和TextRank值用键值对列表按照TextRank值从大到小排序表示为[<核函数，22>、<调优，16>、<经验风险，13>、<支持向量机，11>……]，截取这两组键值对列表中前4个键值对取出其中共现的词语“核函数”、“调优”和“支持向量机”作为该条工作记录的关键词。作为一种可选地实施例，确定关键词序列中每一个关键词的内容标签，得到多个内容标签，可以包括：将关键词序列中的每一个关键词分别与预定标签进行匹配，得到匹配结果；基于匹配结果确定每一个关键词的内容标签，得到多个内容标签。

这里可以标签匹配模块将每条工作记录中关键词与预设的标签进行匹配。

作为一种可选地实施例，将关键词序列中的每一个关键词分别与预定标签进行匹配，可以包括：利用词向量确定模型，确定每一个关键词与预定标签的词向量；确定每一个关键词与预定标签的词向量之间的余弦相似度。

在该实施例中，例如，首先可以根据word2vec模型计算每条工作记录中关键词和预设标签的词向量，然后根据公式计算得到每个关键词与每个预设标签词向量之间的余弦相似度，上述公式可以通过以下方式表示：

其中，该式中V_q与V_t分别为关键词与预设标签的词向量表示，||V_q||与||V_t||分别是向量V_q与V_t的模，cos(V_q,V_t)是两者之间的余弦相似度。若关键词与预设标签之间的余弦相似度大于预设的阈值，则将预设的标签标记为匹配成功，作为该条工作记录的内容标签。预设的阈值取值在0到1之间，根据经验和数据情况而定，这里不做限制。同理可以得到某个员工对应的多条工作记录的多个内容标签。

例如，标签匹配模块中具体预设的标签可以根据员工实际从事的行业进行设置，比如，IT行业的员工的预设标签可以是“大数据”、“web开发”、“机器学习”、“UI”、“Docker部署”等不同的技术领域，也可以是“java”、“python”、“PHP”、“Go语言”等不同的编程语言，还可以是对标签“大数据”进一步细化的标签，例如“hadoop”、“spark”、“flink”等标签，但并不限于此。根据上述公式依次计算“核函数”、“调优”和“支持向量机”三个关键词向量与预设标签词向量之间的余弦相似度，与预设的阈值作比较得到这三个关键词匹配成功的内容标签都是“机器学习”。同理计算分析员工P一段时间内如近三天提交的其他工作记录，得到员工P最终匹配成功的标签有“机器学习”、“机器学习”、“机器学习”、“机器学习”、“微服务”、“微服务”、“小程序开发”、“敏捷开发”、“渗透测试”、“VUE”、“VUE”，作为其工作内容标签。

图2是根据本发明实施例的内容标签的确定方法的流程图，如图2所示，首先可以对工作记录语料进行加载词典的中文分词和取出停用词处理，再分别计算分词词语的tfidf值和textrank值，接下来根据tfidf值和textrank值确定该条工作记录的关键词，在计算每条工作记录中关键词和预设标签的word2vec词向量，接下来计算得到每个关键词词向量与每个预设的标签词向量之间的余弦相似度，最后判断若关键词与预设标签之间的余弦相似度大于预设的阈值，则将预设的标签标记为匹配成功，作为该条工作记录的内容标签。

作为一种可选地实施例，确定多个内容标签中权重大于预定阈值的部分内容标签为主题标签，可以包括：确定多个内容标签中每一个内容标签相对于目标对象的重要性权重；确定多个内容标签中每一个内容标签相对于目标对象的稀缺性权重；确定多个内容标签中每一个内容标签的时间衰减系数；基于重要性权重、稀缺性权重以及时间衰减系数确定多个内容标签中每一个内容标签的权重；将多个内容标签中权重大于预定阈值的部分标签作为主题标签。

由于每位员工在近期一段时间t内可能提交多份工作记录，根据上述方式得到每位员工在近期一段时间t内的多个工作内容标签，标签的重要性可以通过权重值来表示，本发明中权重值计算参考了tfidf思想，即一个标签对于员工的重要性与其在该员工的工作记录中出现的次数成正比，与其在全体员工的工作记录中出现的次数成反比。具体地，在该实施例中，可以通过以下公式来确定多个内容标签中每一个内容标签相对于目标对象的重要性权重，上述公式为：

其中，TF(P,T)是内容标签T对于员工P的重要性权重，表示标签T在员工P所有标签中所占的比重，num(P,T)表示标签T在员工P近期一段时间t内所提交的所有工作记录中所出现的次数，

表示员工P近期一段时间t内所提交的工作记录中提取得到的标签总数。

在该实施例中，可以通过以下公式来确定多个内容标签中每一个内容标签相对于目标对象的稀缺性权重，上述公式为：

这里的IDF(P,T)表示标签T在全部标签中的稀缺程度(即，上下文中的稀缺性权重)，是标签T对于员工P的稀缺性权重，即这个标签在所有员工近期一段时间t内所提交的工作记录中出现的几率。如果标签T出现几率很小，并且同时被用于标记员工P，这就说明员工P与标签T之间的关系很紧密。∑∑num(P_j,T_j)表示近期一段时间t内所提交的工作记录的员工总数，

表示所有打标签T的员工总数。

在该实施例中，可以通过以下公式来确定多个内容标签中每一个内容标签相对于目标对象的时间衰减系数，上述公式为：F(T)＝exp(-α*H)，其中，F(T)表示标签T的时间衰减系数，α是衰减常量，根据实际数据情况取值，H可以取距离当前时间的小时数。

由上可知，在本发明实施例中，工作内容标签权重值的计算还需要考虑时间衰减因素。员工在不同时间点提交的工作内容时效性不同，例如某员工一小时前提交的工作记录中所提取的标签要比从三天前的工作记录中提取的标签更能反映员工当前工作的关注点和兴趣点。所以在标签权重的计算时引入时间衰减系数。在该实施例中，基于重要性权重、稀缺性权重以及时间衰减系数确定所述多个内容标签中每一个内容标签的权重可以通过以下方式来实现：

其中，W(P,T)是员工P所打上的标签T的权重值。

例如，假设得到员工P在近期一段时间内的工作内容标签列表为[“机器学习”、“机器学习”、“机器学习”、“机器学习”、“微服务”、“微服务”、“小程序开发”、“敏捷开发”、“渗透测试”、“VUE”、“VUE”]，标签对于员工的重要性和稀缺性程度通过上述公式计算，员工P拥有的标签“机器学习”的数目是4个，匹配成功的标签总数为11个，那么员工P的“机器学习”标签的TF(P，″机器学习″)＝4/11。假设全部员工的所有标签数目是10000，匹配上“机器学习”标签的用户数目是100，则IDF(P,‘“机器学习”)＝10000/100＝100。

接着计算员工P的“机器学习”标签的时间衰减系数，由于员工P匹配成功了四个“机器学习”标签，假设其中三个都来源于8小时前提交的工作记录A，另一个来源于2小时前提交的工作记录B，可以计算得到四个“机器学习”标签的时间衰减系数分别为0.5、0.5、0.5、0.9。根据上述公式中得到员工P的“机器学习”标签的权重值为W(P，“机器学习”)＝4/11*100*0.5*0.5*0.5*0.9＝4.09。同理可以计算其他标签的权重值。

图3是根据本发明实施例的确定多个内容标签中每一个内容标签的权重的方法的流程图，如图3所示，首先计算标签T对于员工P的重要性权重TF(P,T)，再计算标签T对于员工P的稀缺性权重IDF(P,T)，接下来计算标签T的时间衰减系数，最后求得三者的乘积结果作为标签T的最终权重值。

在本发明实施例中，根据权重值排序取权重值最大的前N个标签作为该员工的主题标签，具体实施如下：假设由计算得到员工P的标签和权重值构成的键值对列表为：[<“机器学习”，4.09>，<“微服务”，3.89>，<“敏捷开发”，3.56>，<“小程序开发”，3.31>，<“渗透测试”，2.25>，<“VUE”，1.93>]，取权重值最大的前N个标签，N具体可以根据实际需要获取的数据进行设置，此处不做限制。假设N取3，则员工P的主题标签为“机器学习”、“微服务”、“敏捷开发”。

作为一种可选地实施例，在将推荐数据发送至目标对象之后，该方法还包括：利用主题标签对预定推荐模型进行更新。

在该实施例中，将推荐数据发送至目标对象之后，可以以主题标签为特征，利用在线机器学习方法进行实时聚类，即每一批主题特征数据到达后，在线学习方法会根据之前批次计算得到的聚类中心和当前批次计算得到的聚类中心来实时更新预定推荐模型。

下面结合附图对本发明另一具体实施例进行说明。图4是本发明实施例的基于Spark Streaming在线学习的工作伙伴推荐方法的流程图，如图4所示，首先可以实时获取员工工作记录信息，具体表现为从客户端获取员工填写的工作记录信息。然后，从工作记录语料中提取出员工的工作内容标签，包括：关键词提取和标签匹配两部分。接下来，计算每位员工工作内容标签的权重值。再根据权重值排序取权重值最大的前N个标签作为该员工的主题标签。最后，以主题标签为特征，利用在线机器学习方法进行实时聚类，即每一批主题特征数据到达后，在线学习方法会根据之前批次计算得到的聚类中心和当前批次计算得到的聚类中心来实时更新模型(即，上下文中的预定推荐模型)。

其中，上述模型更新具体实施方式如下：每位员工的主题标签能够反映员工的主要工作关注点和兴趣点。例如员工的主题标签为“机器学习”、“微服务”、“敏捷开发”，假设我们预设的标签有100个，则员工P对应的1*100特征向量为<0,0,0,4.09,......,0,3.89,......,0,3.56,0，......>，其中，0值表示该标签不是员工P的主题标签，4.89、3.89和3.56分别是主题标签“机器学习”、“微服务”、“敏捷开发”的权重值。用于实时聚类的在线学习算法可以是基于随机梯度下降的在线学习，也可以是FTRL(Follow-the-regularized-Leader)算法，聚类方法可以选择k均值算法和BIRCH算法，这里不做限制。以每位员工对应的主题标签特征向量作为聚类特征进行聚类可以实现员工分群，分群后属于同一类族的员工具有相近的工作关注点和兴趣点。

结束以上步骤后，将聚类结果中同属于一个类族的员工作为工作伙伴进行推荐。假设员工Q与员工P被划分在同一类族的，则表明他们的工作关注点或者兴趣点相同，例如工作内容相同都从事大数据开发，或者技术兴趣点相同都对微服务感兴趣，或者员工P提交了关于机器学习的相关技术问题而员工Q刚好提交了关于该机器学习技术问题的经验总结或相关解答。

由上可知，在本发明实施例中，使用Spark Streaming实时接收员工提交的工作记录流，引入标签体系来刻画员工的工作兴趣点和关注点，在计算标签权重值时综合考虑了员工与标签之间关系和时间衰减等因素，并进行在线学习增量更新聚类模型，可以实现边训练边预测，在员工提交了工作记录之后根据最新的模型实时地推荐工作伙伴。相比于传统的员工推荐方法中使用的离线学习方法，本发明实施例中不需要在一开始就提供完整的员工记录数据，而是随着更多的实时数据到达，不断地更新完善用于工作伙伴推荐的聚类模型，提高了推荐结果的时效性和准确度。

在本发明实施例中，利用tfidf和textrank算法从员工语料中提取工作内容关键词，并引入word2vec模型选择与关键词最匹配的工作内容标签。在计算标签权重值的过程中引入了tfidf思想和时间衰减函数，综合考虑了标签对于员工的重要性、稀缺性和时效性，通过权重值排序从工作内容标签中筛选出可以表征员工主要工作关注点和兴趣点的主题标签，以主题标签为特征建模得到的聚类模型能够给出准确合理的工作伙伴推荐结果。

另外，基于Spark Streaming框架实现了员工语料的实时接收，文本特征的实时提取，标签权重值的实时计算，人员聚类模型的在线学习和工作伙伴的实时推荐等从一整套实时流方法。相比于现有采用离线学习的人员推荐方法，本发明利用在线学习根据连续输入的员工语料流增量地迭代模型，并依据实时更新的聚类模型给出的推荐结果的时效性更高。

通过本发明实施例提供的信息推荐方法，具有以下有益效果：1)利用sparkstreaming框架实现了员工工作记录信息的实时接收，工作记录信息中文本特征的实时提取和加工，标签权重的实时计算，利用在线学习思想创建实时的机器学习模型，当数据流到达时增量更新学习模型，使得模型能够及时反映线上数据流的变化，提高推荐结果的准确度和时效性；2)依据tfidf和textrank特征从员工工作记录中提取关键词作为工作记录标签，在计算标签权重时综合考量了标签对于员工的重要性、稀缺性和时效性，根据权重值从工作内容标签中筛选出主题标签来刻画员工工作中的兴趣点和关注点。

实施例2

根据本发明实施例的另外一个方面，还提供了一种信息推荐的装置，根据本发明实施例的另外一个方面，还提供了一种信息推荐的装置，图5是根据本发明实施例的信息推荐的装置的示意图，该信息推荐的装置包括：获取模块51、确定模块53以及发送模块55。下面对该信息推荐的装置进行说明。

获取模块51，用于获取目标对象的主题标签，其中，主题标签从目标对象提交的预定数据流中提取得到。

确定模块53，用于通过预定推荐模型，确定与主题标签对应的推荐数据，其中，预定推荐模型为使用多组训练数据通过在线机器学习训练得到的，多组训练数据中每组训练数据均包括：主题标签与主题标签对应的推荐数据，推荐数据为推荐给目标对象的推荐对象的标识信息。

发送模块55，用于将推荐数据发送至目标对象。

此处需要说明的是，上述显示模块51、控制模块53以及获取模块55对应于实施例1中的步骤S102至S106，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

由上可知，在本发明实施例中，可以利用获取模块获取目标对象的主题标签，其中，主题标签从目标对象提交的预定数据流中提取得到；然后可以利用确定模块通过预定推荐模型，确定与主题标签对应的推荐数据，其中，预定推荐模型为使用多组训练数据通过在线机器学习训练得到的，多组训练数据中每组训练数据均包括：主题标签与主题标签对应的推荐数据，推荐数据为推荐给目标对象的推荐对象的标识信息；并利用发送模块将推荐数据发送至目标对象。通过本发明实施例提供的信息推荐装置，实现了推荐数据发送至目标对象，实现了可以推荐工作伙伴的目的，达到了提高工作伙伴推荐结果的时效性和准确度的技术效果，解决了相关技术中使用的人员推荐方法均基于离线学习训练得到的模型，存在滞后性，无法比较及时地为用户提供所需信息的技术问题。

可选地，该信息推荐推荐装置还包括：第一获取单元，用于获取目标对象提交的预定数据流；第一确定单元，用于确定预定数据流中的关键词序列；第二确定单元，用于确定关键词序列中每一个关键词的内容标签，得到多个内容标签；第三确定单元，用于确定多个内容标签中权重大于预定阈值的部分内容标签为主题标签。

可选地，该信息推荐装置还包括：添加模块，用于在获取目标对象提交的预定数据流之后，为预定数据流中的每条预定数据添加时间戳。

可选地，该信息推荐装置还包括：预处理子单元，用于对预定数据流中的每条预定数据进行预处理，其中，预处理包括：分词操作、无效数据的过滤操作；第一确定子单元，用于确定预处理后的预定数据流中每个分词结果的特征值，其中，特征值包括：TF-IDF值、TextRank值；生成子单元，用于基于每个分词结果的特征值分别生成每个分词结果对应的序列表；截取子单元，用于从序列表中截取特征值大于预设数值的目标分词结果；第二确定子单元，用于将目标分词结果作为元素得到关键词序列。

可选地，该信息推荐装置还包括：匹配子单元，用于将关键词序列中的每一个关键词分别与预定标签进行匹配，得到匹配结果；第三确定子单元，用于基于匹配结果确定每一个关键词的内容标签，得到多个内容标签。

可选地，该信息推荐装置还包括：第四确定子单元，用于利用词向量确定模型，确定每一个关键词与预定标签的词向量；第五确定子单元，用于确定每一个关键词与预定标签的词向量之间的余弦相似度。

可选地，该信息推荐装置还包括：第六确定子单元，用于确定多个内容标签中每一个内容标签相对于目标对象的重要性权重；第七确定子单元，用于确定多个内容标签中每一个内容标签相对于目标对象的稀缺性权重；第八确定子单元，用于确定多个内容标签中每一个内容标签的时间衰减系数；第九确定子单元，用于基于重要性权重、稀缺性权重以及时间衰减系数确定多个内容标签中每一个内容标签的权重；第十确定子单元，用于将多个内容标签中权重大于预定阈值的部分标签作为主题标签。

可选地，该信息推荐装置还包括：更新模块，用于在将推荐数据发送至目标对象之后，利用主题标签对预定推荐模型进行更新。

实施例3

根据本发明实施例的另外一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序被处理器运行时控制计算机可读存储介质所在设备执行上述中任一项的信息推荐方法。

实施例4

根据本发明实施例的另外一个方面，还提供了一种处理器，处理器用于运行计算机程序，其中，计算机程序运行时执行上述中任一项的信息推荐方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种信息推荐方法，其特征在于，包括：

获取目标对象的主题标签，其中，所述主题标签从所述目标对象提交的预定数据流中提取得到；

通过预定推荐模型，确定与所述主题标签对应的推荐数据，其中，所述预定推荐模型为使用多组训练数据通过在线机器学习训练得到的，所述多组训练数据中每组训练数据均包括：主题标签与所述主题标签对应的推荐数据，所述推荐数据为推荐给所述目标对象的推荐对象的标识信息；

将所述推荐数据发送至所述目标对象。

2.根据权利要求1所述的方法，其特征在于，获取目标对象的主题标签，包括：

获取所述目标对象提交的所述预定数据流；

确定所述预定数据流中的关键词序列；

确定关键词序列中每一个关键词的内容标签，得到多个内容标签；

确定所述多个内容标签中权重大于预定阈值的部分内容标签为所述主题标签。

3.根据权利要求2所述的方法，其特征在于，在获取所述目标对象提交的所述预定数据流之后，所述方法还包括：

为所述预定数据流中的每条预定数据添加时间戳。

4.根据权利要求2所述的方法，其特征在于，确定所述预定数据流中的关键词序列，包括：

对所述预定数据流中的每条预定数据进行预处理，其中，所述预处理包括：分词操作、无效数据的过滤操作；

确定预处理后的所述预定数据流中每个分词结果的特征值，其中，所述特征值包括：TF-IDF值、TextRank值；

基于所述每个分词结果的特征值分别生成所述每个分词结果对应的序列表；

从所述序列表中截取特征值大于预设数值的目标分词结果；

将所述目标分词结果作为元素得到所述关键词序列。

5.根据权利要求4所述的方法，其特征在于，确定关键词序列中每一个关键词的内容标签，得到多个内容标签，包括：

将所述关键词序列中的每一个关键词分别与预定标签进行匹配，得到匹配结果；

基于所述匹配结果确定所述每一个关键词的内容标签，得到所述多个内容标签。

6.根据权利要求5所述的方法，其特征在于，将所述关键词序列中的每一个关键词分别与预定标签进行匹配，包括：

利用词向量确定模型，确定所述每一个关键词与所述预定标签的词向量；

确定所述每一个关键词与所述预定标签的词向量之间的余弦相似度。

7.根据权利要求5所述的方法，其特征在于，确定所述多个内容标签中权重大于预定阈值的部分内容标签为所述主题标签，包括：

确定所述多个内容标签中每一个内容标签相对于所述目标对象的重要性权重；

确定所述多个内容标签中每一个内容标签相对于所述目标对象的稀缺性权重；

确定所述多个内容标签中每一个内容标签的时间衰减系数；

基于所述重要性权重、所述稀缺性权重以及所述时间衰减系数确定所述多个内容标签中每一个内容标签的权重；

将所述多个内容标签中权重大于所述预定阈值的部分标签作为所述主题标签。

8.根据权利要求1至7中任一项所述的方法，其特征在于，在将所述推荐数据发送至所述目标对象之后，所述方法还包括：

利用所述主题标签对所述预定推荐模型进行更新。

9.一种信息推荐的装置，其特征在于，包括：

获取模块，用于获取目标对象的主题标签，其中，所述主题标签从所述目标对象提交的预定数据流中提取得到；

确定模块，用于通过预定推荐模型，确定与所述主题标签对应的推荐数据，其中，所述预定推荐模型为使用多组训练数据通过在线机器学习训练得到的，所述多组训练数据中每组训练数据均包括：主题标签与所述主题标签对应的推荐数据，所述推荐数据为推荐给所述目标对象的推荐对象的标识信息；

发送模块，用于将所述推荐数据发送至所述目标对象。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述计算机可读存储介质所在设备执行上述权利要求1至8中任一项所述的信息推荐方法。

11.一种处理器，其特征在于，所述处理器用于运行计算机程序，其中，所述计算机程序运行时执行上述权利要求1至8中任一项所述的信息推荐方法。