CN113779387A

CN113779387A - 基于知识图谱的行业推荐方法及系统

Info

Publication number: CN113779387A
Application number: CN202110982036.4A
Authority: CN
Inventors: 万明; 殷维; 叶海韵; 杨勇; 于青峰; 张长虹
Original assignee: Shanghai Dazhihui Information Technology Co ltd
Current assignee: Shanghai Dazhihui Information Technology Co ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-12-10

Abstract

本发明提供了一种基于知识图谱的行业推荐方法及系统，涉及知识图谱技术领域，该方法包括：数据上报步骤：收集并上传数据源，数据源包括用户画像数据、用户实时行为数据及实时文章数据；内容风控步骤：对数据源中资讯数据进行过滤；用户特征步骤：对过滤处理后的数据源提取用户特征；文本特征步骤：对数据源中所有资讯文章进行文本特征提取；多路召回步骤：根据以上文本数据特征，对待选资讯进行个性化召回，形成召回集；召回层排序步骤：该系统运用金融知识图谱及深度学习算法，对召回集进行排序，并选出用户最感兴趣内容。本发明能够有效的提升用户粘性，促进各种业务指标的提升，提高用户体验。

Description

基于知识图谱的行业推荐方法及系统

技术领域

本发明涉及知识图谱技术领域，具体地，涉及一种基于知识图谱的行业推荐方法及系统。

背景技术

为促进产业升级，创新驱动发展。各地区、各部门推出促进产业发展政策，如产业发展基金。企业做产业发展的个体，如何快速、精准享受到政策服务，一直是企业服务部门的难题。政策匹配根据企业的注册地、注册资本、经营范围、行业等基本信息匹配相关产业政策项目。基于知识图谱的智能匹配实现从企业找政策项目到政策项目智能匹配企业，提高企业服务部门的服务企业精准，高效的利用产业发展基金，积极落实了产业发展政策。

公开号为CN112667825A的发明专利，公开了一种基于知识图谱的智能推荐方法、装置、设备及存储介质，包括：从预设的政策发布网站抓取政策项目数据，以及从预设的企业信息公示网站抓取企业数据；通过预设的深度学习模型确定所述政策项目数据以及所述企业数据所属的行业类别；从所述政策项目数据中抽取实体以及属性以建立政策知识图谱，以及从所述企业数据中抽取实体以及属性以建立企业知识图谱；接收用户终端输入的查询数据，根据所述查询数据到所述企业知识图谱中查询企业实体，并匹配相应地政策项目实体。

一般政策推荐系统中，企业需要选择与自身相匹配的项目时需要逐个项目的查看和理解，这降低了企业申报产业资金的意愿，也使产业资金不能充分发挥应有的作用，然而现有的推荐结果存在计算可信度比较低，推荐结果的可解释性不足，难以让用户信服，不能够精确探索用户喜好，无法保证每次的推荐都符合用户喜欢的效果，用户体验度较低。

发明内容

针对现有技术中的缺陷，本发明提供一种基于知识图谱的行业推荐方法及系统。

根据本发明提供的一种基于知识图谱的行业推荐方法及系统，所述方案如下：

第一方面，提供了一种基于知识图谱的行业推荐方法，所述方法包括：

数据上报步骤：收集并上传数据源，所述数据源包括用户画像数据、用户实时行为数据及实时文章数据；

内容风控步骤：对数据源中资讯数据进行过滤；

用户特征步骤：对过滤处理后的数据源提取用户特征；

文本特征步骤：对数据源中所有资讯文章进行文本特征提取；

多路召回步骤：根据以上文本数据特征，对待选资讯进行个性化召回，形成召回集；

召回层排序步骤：该系统运用金融知识图谱及深度学习算法，对召回集进行排序，并选出用户最感兴趣内容。

优选的，所述文本特征步骤包括：运用nlp技术对文章进行文本分类、相似文章去重、关键词提取、标签提取以及时效性分析。

优选的，所述文章关键词提取采用textrank及TF-IDF算法。

优选的，所述多路召回步骤中个性化召回包括：长短期兴趣标签召回、自选股召回、热门召回以及相似召回。

优选的，所述多路召回步骤具体如下：

兴趣标签召回：根据用户过往文章阅读行为，探索用户阅读兴趣，选出标签与用户兴趣相同的资讯进行推送；

自选股召回：根据用户自选股票以及最近浏览股票，选出与这些股票相关的个股新闻进行推送；

热门召回：计算所有资讯热度，选出热度排行最高的topN进行推送；

相似召回：根据用户最近浏览的资讯，作相似度计算，从数据源中选出与之最相似的资讯进行推送。

优选的，所述方法还包括：

业务规则中心步骤：在对召回集进行排序后所获得结果的基础上，加入置顶和必推在内的相关人工干预规则。

第二方面，提供了一种基于知识图谱的行业推荐系统，所述系统包括：

数据上报模块：收集并上传数据源，所述数据源包括用户画像数据、用户实时行为数据及实时文章数据；

内容风控模块：对数据源中资讯数据进行过滤；

用户特征模块：对过滤处理后的数据源提取用户特征；

文本特征模块：对数据源中所有资讯文章进行文本特征提取；

多路召回模块：根据以上文本数据特征，对待选资讯进行个性化召回，形成召回集；

召回层排序模块：该系统运用金融知识图谱及深度学习算法，对召回集进行排序，并选出用户最感兴趣内容。

优选的，所述文本特征模块包括：运用nlp技术对文章进行文本分类、相似文章去重、关键词提取、标签提取以及时效性分析。

优选的，所述文章关键词提取采用textrank及TF-IDF算法。

优选的，所述多路召回模块中个性化召回包括：长短期兴趣标签召回、自选股召回、热门召回以及相似召回。

与现有技术相比，本发明具有如下的有益效果：

1、通过采用textrank及TF-IDF算法，解决了文章关键词提取问题，完成了兴趣标签召回，达到了每次推荐结果都是用户喜欢资讯的效果；

2、通过采用simhash算法，解决了海量文本去重问题，大大提高了用户体验；

3、通过采用word2vec及卷积神经网络CNN，解决文本分类问题，使得推荐更为精确；

4、通过采用金融知识图谱，解决了召回层排序问题，进一步精确探索用户喜好，推荐出更为合适的内容。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明整体框架示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种基于知识图谱的行业推荐方法，参照图1所示，该方法具体包括如下步骤：

数据上报步骤：收集并上传用户画像数据、用户实时行为数据及实时文章数据，即数据源，该数据源(平台用户数据、资讯文章、用户行为数据)来自公司自有数据库。

内容风控步骤：对数据源中资讯数据进行过滤，例如黑白名单、敏感词过滤、相似文章去重以及机器学习算法风控等，该步骤主要作用是精选推荐内容，提高内容质量，主要是依据一些人工规则进行过滤。

用户特征步骤：对过滤处理后的数据源提取用户特征，如属性标签、统计标签、模型标签及用户画像分群，该数据一般来自企业自建数据库，包括但不限于用户注册时提供的一些信息。

文本特征步骤：对数据源中所有资讯文章进行文本特征提取，运用nlp技术对文章进行文本分类、相似文章去重、关键词提取、标签提取、时效性分析等。

其中，文章关键词提取采用textrank及TF-IDF算法，其中，TF-IDF(termfrequency–inverse document frequency)算法是一种用于信息检索与数据挖掘的常用加权技术；TF-IDF算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度；而TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。和LDA、HMM等模型不同,TextRank不需要事先对多篇文档进行学习训练,因其简洁有效而得到广泛应用。

海量文本去重采用simhash算法，分为5个步骤：分词、hash、加权、合并、降维，具体过程如下所述：

分词：

给定一段语句，进行分词，得到有效的特征向量，然后为每一个特征向量设置1-5等5个级别的权重(如果是给定一个文本，那么特征向量可以是文本中的词，其权重可以是这个词出现的次数)。例如给定一段语句：“CSDN博客结构之法算法之道的作者July”，分词后为：“CSDN博客结构之法算法之道的作者July”，然后为每个特征向量赋予权值：CSDN(4)博客(5)结构(3)之(1)法(2)算法(3)之(1)道(2)的(1)作者(5)July(5)，其中括号里的数字代表这个单词在整条语句中的重要程度，数字越大代表越重要。

Hash：

通过hash函数计算各个特征向量的hash值，hash值为二进制数01组成的n-bit签名。比如“CSDN”的hash值Hash(CSDN)为100101，“博客”的hash值Hash(博客)为“101011”。就这样，字符串就变成了一系列数字。

加权：

在hash值的基础上，给所有特征向量进行加权，即W＝Hash*weight，且遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘。例如给“CSDN”的hash值“100101”加权得到：W(CSDN)＝100101 4＝4 -4 -4 4 -4 4，给“博客”的hash值“101011”加权得到：W(博客)＝101011 5＝5 -5 5 -5 5 5，其余特征向量类似此般操作。

合并：

将上述各个特征向量的加权结果累加，变成只有一个序列串。拿前两个特征向量举例，例如“CSDN”的“4 -4 -4 4 -4 4”和“博客”的“5 -5 5 -5 5 5”进行累加，得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”，得到“9 -9 1 -1 1”。

降维：

对于n-bit签名的累加结果，如果大于0则置1，否则置0，从而得到该语句的simhash值，最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维(某位大于0记为1，小于0记为0)，得到的01串为：“1 0 1 0 1 1”，从而形成它们的simhash签名。

文本分类采用word2vec及卷积神经网络CNN，word2vec是Google在2003年开源的一款将词表征为实数值向量的高效算法，采用的模型有CBOW(Continuous Bag-Of-Words连续的词袋模型)和Skip-Gram两种。word2vec通过训练，可以把文本内容的处理简化为k维向量空间中的向量运算，二向量空间上的相似度可以用来表示文本语义上的相似度。

卷积神经网络是一种多层的监督学习神经网络，隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节，通过频繁的迭代训练提高网络的精度。卷积神经网络的低隐层是由卷积层和最大池采样层交替组成，高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层的输入是由卷积层和子采样层进行特征提取得到的特征图像。最后一层输出层是一个分类器，可以采用逻辑回归，Softmax回归甚至是支持向量机对输入图像进行分类。卷积神经网络结构包括：卷积层，降采样层，全链接层。每一层有多个特征图，每个特征图通过一种卷积滤波器提取输入的一种特征，每个特征图有多个神经元。

多路召回步骤：根据以上文本数据特征，对待选资讯进行个性化召回，形成召回集，主要分为长短期兴趣标签召回、自选股召回、热门召回及相似召回。

其中，兴趣标签召回：根据用户过往文章阅读行为，探索用户阅读兴趣，选出标签与用户兴趣相同的资讯进行推送。

自选股召回：根据用户自选股票以及最近浏览股票，选出与这些股票相关的个股新闻进行推送。

热门召回：计算所有资讯热度，选出热度排行最高的topN进行推送。

业务规则中心步骤：在对召回集进行排序后所获得结果的基础上，加入置顶和必推在内的相关人工干预规则，以达到更好的用户体验。

本发明还提供了一种基于知识图谱的行业推荐系统，该系统包括：数据上报模块：收集并上传用户画像数据、用户实时行为数据及实时文章数据，即数据源；

内容风控模块：对数据源中资讯数据进行过滤，例如黑白名单、敏感词过滤、相似文章去重以及机器学习算法风控等。

用户特征模块：对过滤处理后的数据源提取用户特征，如属性标签、统计标签、模型标签及用户画像分群。

文本特征模块：对数据源中所有资讯文章进行文本特征提取，运用nlp技术(即自然语言处理，用计算机来分析和生成自然语言(文本、语音)，目的是让人类可以用自然语言形式跟计算机系统进行人机，交互，从而更便捷、有效地进行信息管理。从计算的角度来看语言的性质，就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来，而不是像其他语言学研究那样，在表述语言的结构规律时一般采用非形式化的表达形式)对文章进行文本分类、相似文章去重、关键词提取、标签提取、时效性分析等。

多路召回模块：根据以上文本数据特征，对待选资讯进行个性化召回，形成召回集，主要分为长短期兴趣标签召回、个股偏好召回、热门召回及冷启动时兴趣探索召回。

业务规则中心模块：在对召回集进行排序后所获得结果的基础上，加入置顶和必推等人工干预规则，以达到更好的用户体验。

本发明实施例提供了一种基于知识图谱的行业推荐方法及系统，解决了文章关键词提取问题，完成了兴趣标签召回，达到了每次推荐结果都是用户喜欢资讯的效果；解决了海量文本去重问题，大大提高了用户体验；解决文本分类问题，使得推荐更为精确；通过采用金融知识图谱，解决了召回层排序问题，进一步精确探索用户喜好，推荐出更为合适的内容；综上，本发明根据用户画像及用户行为数据，从海量资讯中获取用户最可能感兴趣资讯，运用金融知识图谱进行排序，有效的提升用户粘性，促进各种业务指标的提升。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于知识图谱的行业推荐方法，其特征在于，包括：

内容风控步骤：对数据源中资讯数据进行过滤；

用户特征步骤：对过滤处理后的数据源提取用户特征；

2.根据权利要求1所述的基于知识图谱的行业推荐方法，其特征在于，所述文本特征步骤包括：运用nlp技术对文章进行文本分类、相似文章去重、关键词提取、标签提取以及时效性分析。

3.根据权利要求2所述的基于知识图谱的行业推荐方法，其特征在于，所述文章关键词提取采用textrank及TF-IDF算法。

4.根据权利要求1所述的基于知识图谱的行业推荐方法，其特征在于，所述多路召回步骤中个性化召回包括：长短期兴趣标签召回、自选股召回、热门召回以及相似召回。

5.根据权利要求4所述的基于知识图谱的行业推荐方法，其特征在于，所述多路召回步骤具体如下：

6.根据权利要求1所述的基于知识图谱的行业推荐方法，其特征在于，所述方法还包括：

7.一种基于知识图谱的行业推荐系统，其特征在于，包括：

内容风控模块：对数据源中资讯数据进行过滤；

用户特征模块：对过滤处理后的数据源提取用户特征；

8.根据权利要求7所述的基于知识图谱的行业推荐系统，其特征在于，所述文本特征模块包括：运用nlp技术对文章进行文本分类、相似文章去重、关键词提取、标签提取以及时效性分析。

9.根据权利要求7所述的基于知识图谱的行业推荐系统，其特征在于，所述文章关键词提取采用textrank及TF-IDF算法。

10.根据权利要求7所述的基于知识图谱的行业推荐系统，其特征在于，所述多路召回模块中个性化召回包括：长短期兴趣标签召回、自选股召回、热门召回以及相似召回。