CN110674313B

CN110674313B - 一种基于用户日志动态更新知识图谱的方法

Info

Publication number: CN110674313B
Application number: CN201910893691.5A
Authority: CN
Inventors: 唐娟
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2022-12-13
Anticipated expiration: 2039-09-20
Also published as: CN110674313A

Abstract

本发明公开了一种基于用户日志动态更新知识图谱的方法，包括：从智能电视语义日志中获取本次更新周期内用户的请求日志数据；遍历用户的请求日志，基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型；并按照请求类别和实体类别分别统计访问量；根据实体访问量和现有的影视知识图谱，得到热门实体、冷门实体和缺失实体；从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理；将得到的热门实体与现有影视知识图谱中实体作实体匹配，并对匹配实体进行更新；将得到的缺失实体新增至知识图谱，以及清理冷门实体。本发明基于用户日志中确定需要更新的实体并进行更新，能有效减少处理的数据量。

Description

一种基于用户日志动态更新知识图谱的方法

技术领域

本发明涉及知识图谱技术领域，具体的说，是一种基于用户日志动态更新知识图谱的方法。

背景技术

传统的搜索引擎主要是基于关键字搜索相关网页，再由用户人工从一堆候选网页中寻找有用的信息，随着互联网技术的飞速发展，这种传统的搜索引擎已经日渐无法满足人们的需求，人们对搜索有了更高的期望。在此背景下，知识图谱也就应运而生了，它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，描述了真实世界中存在的各种实体和概念，及实体、概念之间的关联关系，从而改善了搜索结果。即随着时间的推移，知识图谱中的实体和关系都有可能发生变化，例如影视剧领域相关的新演员、新影片、新角色、演员间关系等等，因此需要对知识图谱中的知识进行不断更新。传统的知识图谱更新方法主要是对所有实体的信息全部进行更新，导致知识图谱更新周期较长，且部分不需要的实体也被频繁更新。

发明内容

本发明的目的在于提供一种基于用户日志动态更新知识图谱的方法，用于解决现有技术中现有知识图谱全网更新所存在的数据量大、无需更新的实体也被频繁更新的问题。

本发明通过下述技术方案解决上述问题：

一种基于用户日志动态更新知识图谱的方法，包括：

步骤A：从智能电视语义日志中获取本次更新周期内用户的请求日志数据；

步骤B：遍历用户的请求日志，基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型；并按照请求类别和实体类别分别统计访问量，并记作实体集E1，

E1＝{(e₁,t₁,n₁₁),(e₁,t₂,n₁₂),(e₂,t₃,n₂₃),…，(e_i,t_j,n_ij)，…(e_n,t_m,n_nm)}，其中三元组(e_i,t_j,n_ij)表示实体名为e_i且实体类别为t_j的实体的用户访问量n_ij；

步骤C：根据实体访问量和现有的影视知识图谱，得到热门实体、冷门实体和缺失实体；

步骤D：从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理；

步骤E：将得到的热门实体与现有影视知识图谱中实体作实体匹配，并对匹配实体进行更新；

步骤F：将得到的缺失实体新增至知识图谱，以及清理冷门实体。

进一步地，所述步骤C具体为：

设定热门阈值THR_sp和冷门阈值THR_unsp，令现有知识图谱中的实体集：

E2＝{(e₁,t₁),(e₁,t₂),(e₂,t₃),…,(e_i,t_j)，…，(e_h,t_k)}，其中二元组(e_i,t_j)表示实体名为e_i且实体类别为t_j的实体；

遍历所得到的实体集E1中的三元组(e_n,t_m,n_nm)，判断：

若n_ij≥THR_sp且(e_i,t_j)∈E2，则记该实体为热门实体；

若n_ij≤THR_unsp且(e_i,t_j)∈E2，则记该实体为冷门实体；

若n_ij＞THR_unsp且

则记该实体为缺失实体。

进一步地，所述步骤D具体为：

步骤D1：将缺失实体标记为待爬取，判断热门实体的实体类型，并根据预设规则将其标记为待爬取或者不爬取；

步骤D2：对标记为带爬取的实体，从垂直网站爬取实体信息；

步骤D3：将爬取的数据格式化，用于与知识图谱中已有数据匹配。

进一步地，所述步骤E具体为：

设定实体相似度阈值THR_stm；

计算实体属性值相似度的加权平均值作为实体的相似度，所述属性值包括用于区分不同实体的一个或者多个属性；

遍历获取的热门实体，计算其与现有知识图谱中实体的相似度；

选择相似度≥THR_stm且相似度最大的实体作为该热门实体的匹配实体，并对匹配实体的属性值进行更新。

进一步地，所述步骤F中将缺失实体新增至知识图谱的步骤为：

将缺失实体与现有知识图谱中的实体进行匹配，如不存在匹配实体，曾将缺失实体新增至知识图谱，若已存在匹配实体，且实体的访问量≥THR_sp，则对已有实体进行更新。

进一步地，所述步骤F中清理冷门实体的步骤为：对冷门实体增加标志其冷门的标记字段，若连续多次更新知识图谱时该实体均为冷门实体，则将该冷门实体从影视知识图谱中删除。

本发明与现有技术相比，具有以下优点及有益效果：

本发明基于用户使用电视过程中能体现用户真实需求的用户日志中，确定知识图谱中需要更新的实体并对相应实体进行更新，能有效减少知识图谱更新所需处理的数据量，也能兼顾用户的真实需求。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

结合附图1所示，一种基于用户日志动态更新知识图谱的方法，包括：

步骤A：用户日志的收集：从智能电视语义日志中获取本次更新周期内用户的请求日志数据；

步骤B：基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型，可以使用Bi-LSTM+CRF模型(Bi-LSTM：Bi-directional Long Short-Term Memory，双向长短期记忆网络；CRF:Conditional Random Field，条件随机场)来进行命名实体标注；遍历用户的请求日志，并按照请求类别和实体类别分别统计访问量，并记作实体集E1，

E1＝{(e₁,t₁,n₁₁),(e₁,t₂,n₁₂),(e₂,t₃,n₂₃),…，(e_i,t_j,n_ij)，…，(e_n,t_m,n_nm)}，其中三元组(e_i,t_j,n_ij)表示实体名为e_i且实体类别为t_j的实体的用户访问量n_ij；

步骤C：根据实体访问量和现有的影视知识图谱，得到热门实体、冷门实体和缺失实体：

E2＝{(e₁,t₁),(e₁,t₂),(e₂,t₃),,(e_i,t_j)，…，(e_h,t_k)}，其中二元组(e_i,t_j)表示实体名为e_i且实体类别为t_j的实体；

遍历所得到的实体集E1中的三元组(e_n,t_m,n_nm)，判断：

若n_ij≥THR_sp且(e_i,t_j)∈E2，则记该实体为热门实体；

若n_ij≤THR_unsp且(e_i,t_j)∈E2，则记该实体为冷门实体；

若n_ij＞THR_unsp且

则记该实体为缺失实体；

步骤D3：将爬取的数据格式化，用于与知识图谱中已有数据匹配；

步骤E：将得到的热门实体与现有影视知识图谱中实体作实体匹配，并对匹配实体进行更新：设定实体相似度阈值THR_stm；

选择相似度≥THR_stm且相似度最大的实体作为该热门实体的匹配实体，并对匹配实体的属性值进行更新；

将缺失实体新增至知识图谱的步骤为：将缺失实体与现有知识图谱中的实体进行匹配，如不存在匹配实体，曾将缺失实体新增至知识图谱，若已存在匹配实体，且实体的访问量≥THR_sp，则对已有实体进行更新。

清理冷门实体的步骤为：对冷门实体增加标志其冷门的标记字段，若连续多次更新知识图谱时该实体均为冷门实体，则将该冷门实体从影视知识图谱中删除。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于用户日志动态更新知识图谱的方法，其特征在于，包括：

则E1＝{(e₁,t₁,n₁₁),(e₁,t₂,n₁₂),(e₂,t₃,n₂₃),…，(e_i,t_j,n_ij)，…(e_n,t_m,n_nm)}，其中三元组(e_i,t_j,n_ij)表示实体名为e_i且实体类别为t_j的实体的用户访问量n_ij；

步骤F：将得到的缺失实体新增至知识图谱，以及清理冷门实体；

所述步骤C具体为：

遍历所得到的实体集E1中的三元组(e_n,t_m,n_nm)，判断：

若n_ij≥THR_sp且(e_i,t_j)∈E2，则记该实体为热门实体；

若n_ij≤THR_unsp且(e_i,t_j)∈E2，则记该实体为冷门实体；

若n_ij＞THR_unsp且

则记该实体为缺失实体；

所述步骤D具体为：

步骤D2：对标记为待爬取的实体，从垂直网站爬取实体信息；

所述步骤E具体为：

设定实体相似度阈值THR_stm；

2.根据权利要求1所述的一种基于用户日志动态更新知识图谱的方法，其特征在于，所述步骤F中将缺失实体新增至知识图谱的步骤为：

3.根据权利要求1所述的一种基于用户日志动态更新知识图谱的方法，其特征在于，所述步骤F中清理冷门实体的步骤为：对冷门实体增加标志其冷门的标记字段，若连续多次更新知识图谱时该实体均为冷门实体，则将该冷门实体从影视知识图谱中删除。