CN110674313B - 一种基于用户日志动态更新知识图谱的方法 - Google Patents
一种基于用户日志动态更新知识图谱的方法 Download PDFInfo
- Publication number
- CN110674313B CN110674313B CN201910893691.5A CN201910893691A CN110674313B CN 110674313 B CN110674313 B CN 110674313B CN 201910893691 A CN201910893691 A CN 201910893691A CN 110674313 B CN110674313 B CN 110674313B
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- cold
- knowledge graph
- hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户日志动态更新知识图谱的方法,包括:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;遍历用户的请求日志,基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型;并按照请求类别和实体类别分别统计访问量;根据实体访问量和现有的影视知识图谱,得到热门实体、冷门实体和缺失实体;从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新;将得到的缺失实体新增至知识图谱,以及清理冷门实体。本发明基于用户日志中确定需要更新的实体并进行更新,能有效减少处理的数据量。
Description
技术领域
本发明涉及知识图谱技术领域,具体的说,是一种基于用户日志动态更新知识图谱的方法。
背景技术
传统的搜索引擎主要是基于关键字搜索相关网页,再由用户人工从一堆候选网页中寻找有用的信息,随着互联网技术的飞速发展,这种传统的搜索引擎已经日渐无法满足人们的需求,人们对搜索有了更高的期望。在此背景下,知识图谱也就应运而生了,它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,描述了真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善了搜索结果。即随着时间的推移,知识图谱中的实体和关系都有可能发生变化,例如影视剧领域相关的新演员、新影片、新角色、演员间关系等等,因此需要对知识图谱中的知识进行不断更新。传统的知识图谱更新方法主要是对所有实体的信息全部进行更新,导致知识图谱更新周期较长,且部分不需要的实体也被频繁更新。
发明内容
本发明的目的在于提供一种基于用户日志动态更新知识图谱的方法,用于解决现有技术中现有知识图谱全网更新所存在的数据量大、无需更新的实体也被频繁更新的问题。
本发明通过下述技术方案解决上述问题:
一种基于用户日志动态更新知识图谱的方法,包括:
步骤A:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;
步骤B:遍历用户的请求日志,基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型;并按照请求类别和实体类别分别统计访问量,并记作实体集E1,
E1={(e1,t1,n11),(e1,t2,n12),(e2,t3,n23),…,(ei,tj,nij),…(en,tm,nnm)},其中三元组(ei,tj,nij)表示实体名为ei且实体类别为tj的实体的用户访问量nij;
步骤C:根据实体访问量和现有的影视知识图谱,得到热门实体、冷门实体和缺失实体;
步骤D:从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;
步骤E:将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新;
步骤F:将得到的缺失实体新增至知识图谱,以及清理冷门实体。
进一步地,所述步骤C具体为:
设定热门阈值THRsp和冷门阈值THRunsp,令现有知识图谱中的实体集:
E2={(e1,t1),(e1,t2),(e2,t3),…,(ei,tj),…,(eh,tk)},其中二元组(ei,tj)表示实体名为ei且实体类别为tj的实体;
遍历所得到的实体集E1中的三元组(en,tm,nnm),判断:
若nij≥THRsp且(ei,tj)∈E2,则记该实体为热门实体;
若nij≤THRunsp且(ei,tj)∈E2,则记该实体为冷门实体;
进一步地,所述步骤D具体为:
步骤D1:将缺失实体标记为待爬取,判断热门实体的实体类型,并根据预设规则将其标记为待爬取或者不爬取;
步骤D2:对标记为带爬取的实体,从垂直网站爬取实体信息;
步骤D3:将爬取的数据格式化,用于与知识图谱中已有数据匹配。
进一步地,所述步骤E具体为:
设定实体相似度阈值THRstm;
计算实体属性值相似度的加权平均值作为实体的相似度,所述属性值包括用于区分不同实体的一个或者多个属性;
遍历获取的热门实体,计算其与现有知识图谱中实体的相似度;
选择相似度≥THRstm且相似度最大的实体作为该热门实体的匹配实体,并对匹配实体的属性值进行更新。
进一步地,所述步骤F中将缺失实体新增至知识图谱的步骤为:
将缺失实体与现有知识图谱中的实体进行匹配,如不存在匹配实体,曾将缺失实体新增至知识图谱,若已存在匹配实体,且实体的访问量≥THRsp,则对已有实体进行更新。
进一步地,所述步骤F中清理冷门实体的步骤为:对冷门实体增加标志其冷门的标记字段,若连续多次更新知识图谱时该实体均为冷门实体,则将该冷门实体从影视知识图谱中删除。
本发明与现有技术相比,具有以下优点及有益效果:
本发明基于用户使用电视过程中能体现用户真实需求的用户日志中,确定知识图谱中需要更新的实体并对相应实体进行更新,能有效减少知识图谱更新所需处理的数据量,也能兼顾用户的真实需求。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种基于用户日志动态更新知识图谱的方法,包括:
步骤A:用户日志的收集:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;
步骤B:基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型,可以使用Bi-LSTM+CRF模型(Bi-LSTM:Bi-directional Long Short-Term Memory,双向长短期记忆网络;CRF:Conditional Random Field,条件随机场)来进行命名实体标注;遍历用户的请求日志,并按照请求类别和实体类别分别统计访问量,并记作实体集E1,
E1={(e1,t1,n11),(e1,t2,n12),(e2,t3,n23),…,(ei,tj,nij),…,(en,tm,nnm)},其中三元组(ei,tj,nij)表示实体名为ei且实体类别为tj的实体的用户访问量nij;
步骤C:根据实体访问量和现有的影视知识图谱,得到热门实体、冷门实体和缺失实体:
设定热门阈值THRsp和冷门阈值THRunsp,令现有知识图谱中的实体集:
E2={(e1,t1),(e1,t2),(e2,t3),,(ei,tj),…,(eh,tk)},其中二元组(ei,tj)表示实体名为ei且实体类别为tj的实体;
遍历所得到的实体集E1中的三元组(en,tm,nnm),判断:
若nij≥THRsp且(ei,tj)∈E2,则记该实体为热门实体;
若nij≤THRunsp且(ei,tj)∈E2,则记该实体为冷门实体;
步骤D:从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;
步骤D1:将缺失实体标记为待爬取,判断热门实体的实体类型,并根据预设规则将其标记为待爬取或者不爬取;
步骤D2:对标记为带爬取的实体,从垂直网站爬取实体信息;
步骤D3:将爬取的数据格式化,用于与知识图谱中已有数据匹配;
步骤E:将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新:设定实体相似度阈值THRstm;
计算实体属性值相似度的加权平均值作为实体的相似度,所述属性值包括用于区分不同实体的一个或者多个属性;
遍历获取的热门实体,计算其与现有知识图谱中实体的相似度;
选择相似度≥THRstm且相似度最大的实体作为该热门实体的匹配实体,并对匹配实体的属性值进行更新;
步骤F:将得到的缺失实体新增至知识图谱,以及清理冷门实体。
将缺失实体新增至知识图谱的步骤为:将缺失实体与现有知识图谱中的实体进行匹配,如不存在匹配实体,曾将缺失实体新增至知识图谱,若已存在匹配实体,且实体的访问量≥THRsp,则对已有实体进行更新。
清理冷门实体的步骤为:对冷门实体增加标志其冷门的标记字段,若连续多次更新知识图谱时该实体均为冷门实体,则将该冷门实体从影视知识图谱中删除。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (3)
1.一种基于用户日志动态更新知识图谱的方法,其特征在于,包括:
步骤A:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;
步骤B:遍历用户的请求日志,基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型;并按照请求类别和实体类别分别统计访问量,并记作实体集E1,
则E1={(e1,t1,n11),(e1,t2,n12),(e2,t3,n23),…,(ei,tj,nij),…(en,tm,nnm)},其中三元组(ei,tj,nij)表示实体名为ei且实体类别为tj的实体的用户访问量nij;
步骤C:根据实体访问量和现有的影视知识图谱,得到热门实体、冷门实体和缺失实体;
步骤D:从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;
步骤E:将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新;
步骤F:将得到的缺失实体新增至知识图谱,以及清理冷门实体;
所述步骤C具体为:
设定热门阈值THRsp和冷门阈值THRunsp,令现有知识图谱中的实体集:
E2={(e1,t1),(e1,t2),(e2,t3),…,(ei,tj),…,(eh,tk)},其中二元组(ei,tj)表示实体名为ei且实体类别为tj的实体;
遍历所得到的实体集E1中的三元组(en,tm,nnm),判断:
若nij≥THRsp且(ei,tj)∈E2,则记该实体为热门实体;
若nij≤THRunsp且(ei,tj)∈E2,则记该实体为冷门实体;
所述步骤D具体为:
步骤D1:将缺失实体标记为待爬取,判断热门实体的实体类型,并根据预设规则将其标记为待爬取或者不爬取;
步骤D2:对标记为待爬取的实体,从垂直网站爬取实体信息;
步骤D3:将爬取的数据格式化,用于与知识图谱中已有数据匹配;
所述步骤E具体为:
设定实体相似度阈值THRstm;
计算实体属性值相似度的加权平均值作为实体的相似度,所述属性值包括用于区分不同实体的一个或者多个属性;
遍历获取的热门实体,计算其与现有知识图谱中实体的相似度;
选择相似度≥THRstm且相似度最大的实体作为该热门实体的匹配实体,并对匹配实体的属性值进行更新。
2.根据权利要求1所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤F中将缺失实体新增至知识图谱的步骤为:
将缺失实体与现有知识图谱中的实体进行匹配,如不存在匹配实体,曾将缺失实体新增至知识图谱,若已存在匹配实体,且实体的访问量≥THRsp,则对已有实体进行更新。
3.根据权利要求1所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤F中清理冷门实体的步骤为:对冷门实体增加标志其冷门的标记字段,若连续多次更新知识图谱时该实体均为冷门实体,则将该冷门实体从影视知识图谱中删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910893691.5A CN110674313B (zh) | 2019-09-20 | 2019-09-20 | 一种基于用户日志动态更新知识图谱的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910893691.5A CN110674313B (zh) | 2019-09-20 | 2019-09-20 | 一种基于用户日志动态更新知识图谱的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110674313A CN110674313A (zh) | 2020-01-10 |
CN110674313B true CN110674313B (zh) | 2022-12-13 |
Family
ID=69077031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910893691.5A Active CN110674313B (zh) | 2019-09-20 | 2019-09-20 | 一种基于用户日志动态更新知识图谱的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674313B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579707B (zh) * | 2020-12-08 | 2023-04-18 | 西安邮电大学 | 一种日志数据的知识图谱构建方法 |
CN114021028A (zh) * | 2021-10-28 | 2022-02-08 | 四川启睿克科技有限公司 | 一种智能交互系统中实体相对热度获取方法 |
CN114168608B (zh) * | 2021-12-16 | 2022-07-15 | 中科雨辰科技有限公司 | 一种用于更新知识图谱的数据处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN107807957A (zh) * | 2017-09-30 | 2018-03-16 | 北京奇虎科技有限公司 | 实体库生成方法及装置 |
CN108920588A (zh) * | 2018-06-26 | 2018-11-30 | 北京光年无限科技有限公司 | 一种用于人机交互的知识图谱更新方法及系统 |
CN110019840A (zh) * | 2018-07-20 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种知识图谱中实体更新的方法、装置和服务器 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003227310A1 (en) * | 2002-04-05 | 2003-10-20 | Lisa Seeman | Networked accessibility enhancer system |
US20150169758A1 (en) * | 2013-12-17 | 2015-06-18 | Luigi ASSOM | Multi-partite graph database |
US20180366013A1 (en) * | 2014-08-28 | 2018-12-20 | Ideaphora India Private Limited | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter |
CN104484459B (zh) * | 2014-12-29 | 2019-07-23 | 北京奇虎科技有限公司 | 一种对知识图谱中的实体进行合并的方法及装置 |
CN109804364A (zh) * | 2016-10-18 | 2019-05-24 | 浙江核新同花顺网络信息股份有限公司 | 知识图谱构建系统及方法 |
CN106844603B (zh) * | 2017-01-16 | 2021-05-11 | 竹间智能科技(上海)有限公司 | 实体热门度的计算方法及装置、应用方法及装置 |
CN107665252B (zh) * | 2017-09-27 | 2020-08-25 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN107633084A (zh) * | 2017-09-28 | 2018-01-26 | 武汉虹旭信息技术有限责任公司 | 基于自媒体的舆情管控系统及其方法 |
CN109189942B (zh) * | 2018-09-12 | 2021-07-09 | 山东大学 | 一种专利数据知识图谱的构建方法及装置 |
CN109597990B (zh) * | 2018-11-22 | 2022-11-15 | 中国人民大学 | 一种社会热点与商品品类的匹配方法 |
-
2019
- 2019-09-20 CN CN201910893691.5A patent/CN110674313B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN107807957A (zh) * | 2017-09-30 | 2018-03-16 | 北京奇虎科技有限公司 | 实体库生成方法及装置 |
CN108920588A (zh) * | 2018-06-26 | 2018-11-30 | 北京光年无限科技有限公司 | 一种用于人机交互的知识图谱更新方法及系统 |
CN110019840A (zh) * | 2018-07-20 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种知识图谱中实体更新的方法、装置和服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN110674313A (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN107862027B (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN108388559B (zh) | 地理空间应用下的命名实体识别方法及系统、计算机程序 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN110674313B (zh) | 一种基于用户日志动态更新知识图谱的方法 | |
US20040141354A1 (en) | Query string matching method and apparatus | |
CN112434169A (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
US20100318537A1 (en) | Providing knowledge content to users | |
CN109815386B (zh) | 一种基于用户画像的构建方法、装置及存储介质 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN111221968B (zh) | 基于学科树聚类的作者消歧方法及装置 | |
CN108647322A (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN102855245A (zh) | 一种用于确定图片相似度的方法与设备 | |
CN117952209A (zh) | 一种知识图谱构建方法及系统 | |
TW202001621A (zh) | 語料庫產生方法及裝置、人機互動處理方法及裝置 | |
CN114742071B (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
CN103136221B (zh) | 一种生成需求模板的方法、需求识别的方法及其装置 | |
CN114153965A (zh) | 一种结合内容和图谱的舆情事件推荐方法、系统及终端 | |
CN112836008B (zh) | 基于去中心化存储数据的索引建立方法 | |
CN118035440A (zh) | 一种企业关联档案管理目标知识特征推荐方法 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
CN115329083A (zh) | 文档分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |