CN115982379A

CN115982379A - 基于知识图谱的用户画像构建方法和系统

Info

Publication number: CN115982379A
Application number: CN202211640703.1A
Authority: CN
Inventors: 陈钦; 傅龙天; 刘燊
Original assignee: Fuzhou College of Foreign Studies and Trade
Current assignee: Fuzhou College of Foreign Studies and Trade
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-04-18

Abstract

本发明公开了基于知识图谱的用户画像构建方法和系统，包括以下步骤：采集用户信息，整理形成用户的描述文本；对所述描述文本进行信息抽取，形成实体‑关系‑实体或实体‑属性‑属性值形式的三元组；对所述三元组进行知识融合，包括实体映射及消歧；对融合后的三元组进行知识加工，形成结构化、网络化的知识体系；采用图数据库保存知识加工后的三元组，形成知识图谱；基于所述知识图谱挖掘用户特征，根据所述用户特征构建用户画像。采用知识图谱进行用户画像，利用知识图谱查询效率高的特性，使得利用知识图谱进行海量用户画像时的效率大大提升。

Description

基于知识图谱的用户画像构建方法和系统

技术领域

本发明属于数据处理技术领域，特别涉及基于知识图谱的用户画像构建方法和系统。

背景技术

用户画像(User Profile)被广泛应用于运营和数据分析，它是各类描述用户数据的变量集合。所谓用户画像，就是通过数据标签构建出来的用户形象。个性化推荐、广告系统、活动营销、内容推荐、兴趣偏好都是基于用户画像的应用，通过对海量数据信息进行分析，将数据抽象成标签，再利用这些标签将用户形象具体化，最终形成用户画像应用于上述运用。当我们想要选择校园环境内的教育用户群体做精细化推送资讯时，先根据用户画像筛选出特定的群体，用户画像是一个复杂的系统，随着画像模型逐渐成熟，会根据不同的业务场景设计不同的标签。

知识图谱主要是用来描述真实世界中存在的各种实体和概念，以及他们之间的关系，因此可以认为是一种语义网络。从发展的过程来看，知识图谱是在NLP(NaturalLanguage Processing，自然语言处理)的基础上发展而来的。知识图谱和NLP有着紧密的联系。知识图谱可以用来更高的查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合，转化为简单、清晰的“实体-关系-实体”或者“实体-属性-属性值”的三元组，最后聚合大量知识，从而实现知识的快速响应和推理。

目前用户画像技术仍然处于基于人工操作“打标签”状态，用户行为分析的扩展性不足，缺乏面向海量用户行为数据进行用户画像的高效方法。

发明内容

本发明提供基于知识图谱的用户画像构建方法和系统，旨在解决目前缺乏高效地进行海量用户数据进行画像方法的问题。

为解决上述技术问题，本发明提出基于知识图谱的用户画像构建方法和系统，包括以下步骤：

S1：采集用户信息，提取出若干关键词，输出关于用户的描述文本，所述关键词包括用户的注册信息、搜索关键词、发帖内容。

S2：构建用户画像的知识图谱，对所述描述文本进行信息抽取，归类然后对应映射，形成实体-关系-实体或实体-属性-属性值形式的三元组，所述信息抽取包括实体识别、关系识别及属性识别，所述实体识别采用改进卷积神经网络结合改进条件随机场模型的方法，将所述描述文本输入所述改进卷积神经网络得到特征图，将所述特征图输入所述改进条件随机场模型进行序列标注，用于识别所述描述文本中感兴趣的实体。

S3：对所述三元组进行知识融合，把来自多个来源的关于同一个实体的不同三元组进行共指消解以映射到正确的一个实体，采用基于百科知识的无监督聚类方法，对表示不同实体的同名三元组进行消歧用于解决同名三元组产生的歧义。

S4：对融合后的三元组进行知识加工，形成结构化、网络化的知识体系，所述知识加工包括本体构建、知识推理及质量评估，所述本体构建基于对一个领域的共同理解，提炼出一个概括性词汇，所述知识推理通过各种方法获取新的知识或结论，所述质量评估对知识的可信度进行量化，通过舍弃置信度较低的知识来保障知识库的质量。

S5：采用图数据库保存知识加工后的三元组，形成知识图谱。

S6：基于所述知识图谱挖掘用户特征，根据所述用户特征构建用户画像。

优选地，所述质量评估对可信度进行量化，分为知识的准确度、覆盖率、一致性及简洁度四个维度的数据，输入至预设的量化模型分别计算出量化值，根据所述量化值在一个平面直角坐标系中x、y轴四个方向添加标记点，连接四个所述标记点形成的四边形面积值作为置信度。

优选地，所述改进卷积神经网络采用扩张卷积代替传统卷积神经网络的卷积操作，去除传统卷积神经网络中的池化层。

优选地，所述改进条件随机场模型基于设定的标签转移规则，预先对转移矩阵添加掩码，将非法的标签转移得分赋值为一个极小值。

优选地，所述属性识别基于已识别的实体使用爬虫在网络上爬取所述已识别实体的关系关键词。

优选地，所述无监督聚类方法从维基百科中构建了一个大规模的语义网络，根据语义网络中的百科语义知识进行消歧。

优选地，所述知识推理采用基于表示学习的知识图谱推理方法，将实体以及实体之间的关系映射到向量空间，然后通过向量空间的操作建立逻辑关系。

优选地，所述图数据库为Neo4j数据库。

基于知识图谱的用户画像构建系统，其特征在于，包括：数据采集模块及知识图谱模块，所述知识图谱模块进一步包括：信息抽取模块、知识融合模块及知识加工模块，所述数据采集模块及知识图谱模块被配置为执行上述的基于知识图谱的用户画像构建方法。

所述数据采集模块用于采集用户信息，整理形成用户的描述文本；

所述信息抽取模块所述描述文本进行实体识别、关系识别及属性识别，形成实体-关系-实体或者实体-属性-属性值形式的三元组，采用改进卷积神经网络结合改进条件随机场模型的方法对所述描述文本进行实体识别；

所述知识融合模块对所述三元组进行融合，具体为：把来自多个来源的关于同一个实体的不同三元组进行共指消解以映射到正确的一个实体，对表示不同实体的同名三元组进行消歧解决同名三元组产生的歧义；

所述知识加工模块对融合后的三元组进行知识加工，采用本体构建方法基于对一个领域的共同理解，提炼出一个概括性词汇，采用知识推理方法通过各种方法获取新的知识或结论，采用质量评估方法对知识的可信度进行量化，通过舍弃置信度较低的知识来保障知识库的质量。

与现有技术相比，本发明具有以下技术效果：

1.本发明提出的用户画像构建方法采用知识图谱进行用户画像，知识图谱的查找模式为从三元组中查找需要的内容，对于多跳查找时，知识图谱的联系和推理性优于关系数据库的Join操作，大大提升数据的查询效率，使得利用知识图谱进行海量用户画像时的效率大大提升。

2.本发明提出的用户画像构建方法在实体识别操作时采用扩张卷积神层代替传统卷积神经网络的卷积操作，保留了卷积神经网络可充分利用并行使用GPU资源的优点，去除了卷积层后续的池化层对精度的影响，在卷积操作中增大了感受野，避免神经网络训练过程中的过拟合。

3.本发明提出的用户画像构建方法在实体识别操作时采用改进的条件随机场，对条件随机场中的转移矩阵添加掩码，将非法的标签转移得分赋值为一个极小值，使得包含非法路径的路径必然得分极低，可有效提升实体识别的效率。

4.本发明提出的用户画像构建方法使用图数据库保存知识图谱，应用图形理论存储实体之间的关系信息，充分利用图数据库在数据关联关系查询中的高性能，使得数据查询与分析的速度更快，提高画像构建的效率；图数据库灵活的数据模型可以适应不断变化的业务需求，任意添加或删除顶点、边，扩充或者缩小图模型这些都可以轻松实现，使得知识图谱的构建更加灵活。

附图说明

图1是本发明所述的基于知识图谱的用户画像构建方法的流程图；

图2是本发明所述的基于知识图谱的用户画像构建方法的构建知识图谱流程图；

图3是本发明所述的基于知识图谱的用户画像构建方法的扩张卷积示意图；

图4是本发明所述的基于知识图谱的用户画像构建方法的改进条件随机场模型的添加掩码示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例，并参照附图，对本发明的技术方案进行清楚、完整地描述。

请参阅图1，本实施例的基于知识图谱的用户画像构建方法和系统，包括以下步骤：

S1：采集用户信息，整理形成用户的描述文本。

用户信息来源有：校园网络环境内的用户注册资料中的文本，包括姓名、个人签名、专业、年级等基础信息；用户在使用应用过程中生产的内容，包括发表的评论、动态、日记及聊天记录等文本内容；与用户发生了连接关系的文本，如用户阅读过的内容。

S2：对所述描述文本进行信息抽取，形成实体-关系-实体或实体-属性-属性值形式的三元组，所述信息抽取包括实体识别、关系识别及属性识别，所述实体识别采用改进卷积神经网络结合改进条件随机场模型的方法，将所述描述文本输入所述改进卷积神经网络得到特征图，将所述特征图输入所述改进条件随机场模型进行序列标注，用于识别所述描述文本中感兴趣的实体。

信息抽取首先对自然语言进行分词及词性标注，例如，对于浏览的新闻中的自然语言内容“神舟十四号航天员乘组将于近日返回东风着陆场，12月1日晚，神舟十四号搜救回收任务组织了最后一次全系统综合演练，东风着陆场已做好迎接飞船返回各项准备工作”，实体识别将从中识别出神舟十四号、航天员、东风着陆场以及12月1日等实体，再通过关系识别与属性识别操作，根据对应实体生成若干三元组，例如实体神舟十四号，经过爬取网络内容，生成的三元组包括：神舟十四号-简称-神十四、神舟十四号-发射时间-2022年6月5日10时44分、神舟十四号-发射地点-酒泉卫星发射中心、神舟十四号-返回地点-东风着陆场、神舟十四号-国家-中国、神舟十四号-高度-9米、神舟十四号-起飞重量-8吨等，将这些三元组送入知识融合模块进行下一步处理。

S3：对所述三元组进行知识融合，把来自多个来源的关于同一个实体的不同三元组进行共指消解以映射到正确的一个实体，采用基于百科知识的无监督聚类方法，对表示不同实体的同名三元组进行消歧解决同名三元组产生的歧义。

百科类网站通常会为每个实体分配一个单独页面，其中包括指向其他实体页面的超链接，百科知识模型正是利用这种链接关系来计算实体之间的相似度。可以从维基百科中构建了一个大规模的语义网络，根据语义网络中的百科语义知识进行消歧。

质量评估对可信度进行量化，分为知识的准确度、覆盖率、一致性及简洁度四个维度的数据，输入至预设的量化模型分别计算出量化值，根据所述量化值在一个平面直角坐标系中x、y轴四个方向添加标记点，连接四个所述标记点形成的四边形面积值作为置信度，知识的置信度与所述四边形面积值正相关。

其中准确度评价将相关知识与标准数据库或者知识图谱中已保存的知识进行比对，计算其与标准知识的偏移百分比，准确度数据a即为1-偏移百分比，最终的准确度得分为5×a，使准确度得分的取值范围为0<≤5，以简化所述四边形面积的计算。覆盖率得分通过专家抽样检查进行评估，对比具体实体是否具备其同类实体的常见属性和关系来判定该实体的相关知识是否完整，根据评估意见对为覆盖率得分赋值，覆盖率得分的赋值范围为(0,5]。一致性考察知识的表达是否一致，在已存在的知识中存在互相矛盾的知识组，对存在互相矛盾的知识组的一致性得分赋值为1，不存在互相矛盾的知识的一致性得分赋值为5，量化模型不改变其得分数值。对知识的简洁度评价采用与该知识领域相关的属性、实体、关系的重合比率衡量，以降低与知识图谱所述领域无关的数据元素的权重，相关知识与本领域相关的属性、书体、关系的重合比率越大，则其简洁度得分越高，与准确度评价方法类似，将重合比率数值乘5，即为简洁度评分。

步骤S2～S5的实现方法如图2所示，在构建知识图谱时，首先要进行信息抽取，信息抽取包括实体识别、关系识别及属性识别，整理出“实体-关系-实体”或者“实体-属性-属性值”的三元组。其中实体识别目的是为了识别出描述文本中的命名实体，并进行实体边界识别和确定实体类型，采用命名实体识别方法，在一个句子中搜索具有可描述意义的实体。

本实施例采用改进的CNN卷积层作为编码器结合改进的条件随即场进行命名实体识别，其中在改进的CNN卷积层中使用扩张卷积代替传统卷积神经网络的卷积操作，去除传统卷积神经网络中的池化层。请参阅图3，为本实施例中膨胀因子为2的扩张卷积示意图，膨胀因子为2，则插入孔的数量为2-1个，通过在连续元素之间插入孔来扩展输入，得以扩大输入图像覆盖的区域，而无需池化，可以使用相同的计算成本提供了更宽的视野。

在条件随机场中，为转移矩阵的每一个元素f_k赋予一个权重λ_k，给定一个句子s，s可以对应若干标签序列l。因此，可以通过将所有关键词的权重相加，对每一种标签序列l打分，公式如下：

式中，n为描述文本句子s的长度，m为特征函数的数量。

图4为本实施例中对转移矩阵添加掩码的示意图，改进的条件随机场模型基于设定的标签转移规则，预先对转移矩阵中得分低于一个设定值的元素添加掩码，将低于该设定值的元素的转移得分赋值为一个极小值，使得条件随机场模型在计算路径得分时不会选择包含元素的路径。在图4中，得分偏低的元素包括a13、a15、a17、a23、a25、a27、a32、a35、a37、a42、a43、a47、a53、a57、a65、a75，则对上述元素添加掩码，使得条件随机场模型在计算路径得分时不再考虑上述元素，避免非法路径对条件随机场模型效率的影响。

所述属性识别基于已识别的实体使用爬虫在网络上爬取所述已识别实体的关系关键词，用于为所述实体构造属性列表并对所述实体附加属性值。属性识别的目标是从不同信息源中采集特定实体的属性信息，例如针对某个公众人物，可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性识别技术能够从多种数据来源中汇集这些信息，实现对实体属性的完整勾画。

描述文本经过实体识别，得到的是一系列离散的命名实体，为了得到语义信息，还需要从相关的语料中提取出实体之间的关联关系，通过关联关系将实体(概念)联系起来，才能够形成网状的知识结构。关系识别的目标是解决实体语义链接的问题，关系的基本信息包括参数类型、满足此关系的元组模式，采用基于联合推理的实体关系识别。联合推理的关系识别方法是马尔可夫逻辑网，将马尔可夫网络与一阶逻辑相结合进行统计关系学习，同时在OIE(Open Information Extraction，开放式信息抽取)融入推理。

经过信息抽取模块，描述文本被整理形成了若干三元组，这些三元组之间的关系是扁平化的，缺乏层次性和逻辑性，并且还存在大量冗杂和错误的信息。为解决这些问题，必须将经信息抽取形成的三元组进行知识融合。首先根据给定的实体指称项，从知识库中选出一组候选实体对象，然后通过相似度计算将指称项链接到正确的实体对象。具体方法如下：从文本中通过实体识别得到实体指称项；进行实体消歧和共指消解，判断知识库中的同名实体是否与其代表不同的含义以及知识库中是否存在其他命名实体与其表示相同的含义；在确认知识库中对应的正确实体对象之后，将该实体指称项链接到知识库中对应实体。

其中，实体消歧用于解决同名实体产生歧义问题的技术，通过实体消歧，就可以根据当前的语境，准确建立实体链接，采用无监督聚类方法实现词义消歧，所述无监督聚类方法从维基百科中构建了一个大规模的语义网络，根据语义网络中的百科语义知识进行消歧。使用词义标注语料来建立消歧模型，利用该消歧模型进行实体消歧。共指消解用于解决多个指称对应同一实体对象的问题，在一次会话中，多个指称可能指向的是同一实体对象，利用共指消解技术，可以将这些指称项关联(合并)到正确的实体对象。

在构建知识图谱时，可以从第三方知识库产品或已有结构化数据获取知识输入。在知识图谱构建过程中，一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中，可以采用资源描述框架作为数据模型，将关系数据库的数据换成三元组数据。

在构建知识图谱的过程中，通过信息抽取，从原始语料中提取出了实体、关系与属性等知识要素，并且经过知识融合，消除实体指称项与实体对象之间的歧义，得到一系列基本的事实表达。要获得结构化、网络化的知识体系，还需要经历知识加工，知识加工包括本体构建、知识推理及质量评估等操作。

所述本体构建用于获取、描述和表示相关领域的知识，提供对该领域知识的共同理解，确定领域内共同认可的词汇，提供该领域特定的概念定义和概念之间的关系，提供该领域中发生的活动以及该领域的主要理论和基本原理，达到人机交流的效果。在本实施例中，本体构建采用七步法,主要用于领域本体的构建。包括以下步骤：确定本体的专业领域和范畴；考查复用现有本体的可能性；列出本体中的重要术语；定义类和类的等级体系，完善等级体系可行的方法有：自顶向下法、自低向上法和综合法；定义类的属性；定义属性的分面；创建实例。

所述知识推理采用基于表示学习的知识图谱推理方法，将实体以及实体之间的关系映射到向量空间，然后通过向量空间的操作建立逻辑关系。通过推理出实体之间的关联的关系，自动产生新的知识，补充缺失的事实，完善知识图谱。知识推理的对象不局限于实体间的关系，也可以是实体的属性值，本体的概念层次关系，比如属性值推理可以根据对象实体的生日属性推理出该对象实体的年龄属性，概念层次关系推理可以根据两个及以上三元组的层次递进关系，推理出新的三元组数据。

构建好的知识图谱可能会有一些错误，主要集中在三元组的上下位问题、属性问题及逻辑问题，所述上下位问题是指使图谱中出现环状结构，一般来说，知识图谱是树状结构，如果出现环状结构，则需要接入进行修正；所述属性问题是指实体属性出现偏差，偏离的该属性值的正常范围；所述逻辑问题是指关系间的逻辑不符合客观事实。所以，需要对知识图谱的质量进行评估，包括知识图谱补全和知识图谱错误检测。

本实施例进行质量评估采用的方法包括一致性检查法及基于外部知识的对比检查法。所述一致性检查法通过专家预先制定的检测规则检测知识图谱中的知识冲突，以发现知识质量问题。所述基于外部知识的对比检查法使用与目标知识图谱有较高重合度的高质量外部知识源作为基准数据，对目标知识图谱进行质量检测。

在知识图谱的应用过程中，可以随着知识图谱的使用而更新知识图谱。在新增或更新实体、关系、属性值后，需要对数据层进行更新，更新操作时需要考虑数据源的可靠性、数据的一致性等问题，并选择在各数据源中出现频率高的事实和属性进行质量评估后加入知识图谱。

最后采用图数据库保存经质量评估后的三元组信息，完成知识图谱的构建，所述图数据库为Neo4j数据库。充分利用Neo4j数据库的查询性能，并且查询性能不会随着数据量的增长而下降；Neo4j数据库还具有设计上的灵活性，图数据结构的自然伸展特性机器非结构化的数据格式，数据库可以更灵活的接近业务需求的变化。

基于知识图谱的用户画像构建系统，包括：数据采集模块及知识图谱模块，所述知识图谱模块进一步包括：信息抽取模块、知识融合模块及知识加工模块，所述数据采集模块及知识图谱模块被配置为上述的基于知识图谱的用户画像构建方法。

所述数据采集模块用于采集用户信息，整理形成用户的描述文本。

所述信息抽取模块所述描述文本进行实体识别、关系识别及属性识别，形成实体-关系-实体或者实体-属性-属性值形式的三元组，采用改进卷积神经网络结合改进条件随机场模型的方法对所述描述文本进行实体识别。

所述知识融合模块对所述三元组进行融合，具体为：把来自多个来源的关于同一个实体的不同三元组进行共指消解以映射到正确的一个实体，对表示不同实体的同名三元组进行消歧解决同名三元组产生的歧义。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于知识图谱的用户画像构建方法和系统，其特征在于，包括以下步骤：

S1：采集用户信息，提取出若干关键词，输出关于用户的描述文本，所述关键词包括用户的注册信息、搜索关键词、发帖内容；

S2：构建用户画像的知识图谱，对所述描述文本进行信息抽取，归类然后对应映射，形成实体-关系-实体或实体-属性-属性值形式的三元组，所述信息抽取包括实体识别、关系识别及属性识别，所述实体识别采用改进卷积神经网络结合改进条件随机场模型的方法，将所述描述文本输入所述改进卷积神经网络得到特征图，将所述特征图输入所述改进条件随机场模型进行序列标注，用于识别所述描述文本中感兴趣的实体；

S3：对所述三元组进行知识融合，把来自多个来源的关于同一个实体的不同三元组进行共指消解以映射到正确的一个实体，采用基于百科知识的无监督聚类方法，对表示不同实体的同名三元组进行消歧用于解决同名三元组产生的歧义；

S4：对融合后的三元组进行知识加工，形成结构化、网络化的知识体系，所述知识加工包括本体构建、知识推理及质量评估，所述本体构建基于对一个领域的共同理解，提炼出一个概括性词汇，所述知识推理通过各种方法获取新的知识或结论，所述质量评估对知识的可信度进行量化，通过舍弃置信度较低的知识来保障知识库的质量；

S5：采用图数据库保存知识加工后的三元组，形成知识图谱；

2.根据权利要求1所述的基于知识图谱的用户画像构建方法，其特征在于，所述质量评估对可信度进行量化，分为知识的准确度、覆盖率、一致性及简洁度四个维度的数据，输入至预设的量化模型分别计算出量化值，根据所述量化值在一个平面直角坐标系中x、y轴四个方向添加标记点，连接四个所述标记点形成的四边形面积值作为置信度。

3.根据权利要求1所述的基于知识图谱的用户画像构建方法，其特征在于，所述改进卷积神经网络采用扩张卷积代替传统卷积神经网络的卷积操作，去除传统卷积神经网络中的池化层。

4.根据权利要求1所述的基于知识图谱的用户画像构建方法，其特征在于，所述改进条件随机场模型基于设定的标签转移规则，预先对转移矩阵添加掩码，将非法的标签转移得分赋值为一个极小值。

5.根据权利要求1所述的基于知识图谱的用户画像构建方法，其特征在于，所述属性识别基于已识别实体使用爬虫在网络上爬取所述已识别实体的关系关键词。

6.根据权利要求1所述的基于知识图谱的用户画像构建方法，其特征在于，所述无监督聚类方法从维基百科中构建了一个大规模的语义网络，根据语义网络中的百科语义知识进行消歧。

7.根据权利要求1所述的基于知识图谱的用户画像构建方法，其特征在于，所述知识推理采用基于表示学习的知识图谱推理方法，将实体以及实体之间的关系映射到向量空间，然后通过向量空间的操作建立逻辑关系。

8.根据权利要求1所述的基于知识图谱的用户画像构建方法，其特征在于，所述图数据库为Neo4j数据库。

9.基于知识图谱的用户画像构建系统，其特征在于，包括：数据采集模块及知识图谱模块，所述知识图谱模块进一步包括：信息抽取模块、知识融合模块及知识加工模块，所述数据采集模块及知识图谱模块被配置为执行权利要求1-8所述的基于知识图谱的用户画像构建方法。