CN110019840B - 一种知识图谱中实体更新的方法、装置和服务器 - Google Patents

一种知识图谱中实体更新的方法、装置和服务器 Download PDF

Info

Publication number
CN110019840B
CN110019840B CN201810800674.8A CN201810800674A CN110019840B CN 110019840 B CN110019840 B CN 110019840B CN 201810800674 A CN201810800674 A CN 201810800674A CN 110019840 B CN110019840 B CN 110019840B
Authority
CN
China
Prior art keywords
entity
candidate
priority
hot word
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810800674.8A
Other languages
English (en)
Other versions
CN110019840A (zh
Inventor
王策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810800674.8A priority Critical patent/CN110019840B/zh
Publication of CN110019840A publication Critical patent/CN110019840A/zh
Application granted granted Critical
Publication of CN110019840B publication Critical patent/CN110019840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种知识图谱中实体更新的方法、装置和服务器,所述方法包括获取热词集合;根据所述热词集合在所述知识图谱中获取候选实体集合;计算所述候选实体集合中的各个候选实体的优先度;根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。本发明根据热度选择候选实体集合,并综合考虑候选实体在新闻中出现的次数、实体属性数量、实体链接数量、被编辑次数和访问次数,从而从多维度计算实体的预测更新频率值,并结合时间得到能够表征实体需要被更新的必要性的优先度,从而根据优先度更新实体,这种实体更新方法既兼顾了热点更新,又综合考虑了与实体更新有关的各方面内容,从而确保更新及时准确。

Description

一种知识图谱中实体更新的方法、装置和服务器
技术领域
本发明涉及计算机领域,尤其涉及一种知识图谱中实体更新的方法、装置和服务器。
背景技术
知识图谱是由实体组成的集合,每个实体都有特定的属性,而其中属性值有可能发生变化。传统知识图谱实体更新只能是对所有实体的信息全部进行更新,从而导致了传统知识图谱更新方法周期长。
对于属性内容较为固定的实体,不需要频繁更新,而对于属性内容变化频繁的实体则需要经常更新,而传统知识图谱更新方法无法区分实体信息的变化率,造成部分不需要更新的实体被频繁更新的情况。
发明内容
为了解决上述技术问题,本发明提出了一种知识图谱中实体更新的方法、装置和服务器器。本发明具体是以如下技术方案实现的:
第一方面,一种知识图谱中实体更新的方法,包括:
获取热词集合;
根据所述热词集合在所述知识图谱中获取候选实体集合;
计算所述候选实体集合中的各个候选实体的优先度;
根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。.
第二方面,一种知识图谱中实体更新的装置,包括:
热词集合获取模块,用于获取热词集合;
候选实体集合获取模块,用于根据所述热词集合在所述知识图谱中获取候选实体集合;
优先度获取模块,用于计算所述候选实体集合中的各个候选实体的优先度;
目标实体处理模块,用于根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。
第四方面,一种服务器,所述服务器用于运行上述一种知识图谱中实体更新的装置。
第五方面,一种终端,所述终端用于运行上述一种知识图谱中实体更新的装置。
本发明提供了一种知识图谱中实体更新的方法、装置和服务器,本发明中根据热度选择候选实体集合,并综合考虑候选实体在新闻中出现的次数、实体属性数量、实体链接数量、被编辑次数和访问次数,从而从多维度计算实体的预测更新频率值,并再结合时间来得到能够表征实体需要被更新的必要性的优先度,从而根据优先度更新实体,这种实体更新方法既兼顾了热点更新,又综合考虑了与实体更新有关的各方面内容,从而确保更新及时准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种知识图谱中实体更新的方法的流程图;
图2是本发明实施例提供的知识图谱中的实体示意图;
图3是本发明实施例提供的根据优先度在候选实体集合中选择目标实体的方法流程图;
图4是本发明实施例提供的另一根据优先度在候选实体集合中选择目标实体的方法流程图;
图5是本发明实施例提供的一种根据热词获取候选实体的方法流程图;
图6是本发明实施例提供的优先度的获取方法流程图;
图7是本发明实施例提供的一种知识图谱中实体更新的装置框图;
图8是本发明实施例提供的候选实体集合获取模块置框图;
图9是本发明实施例提供的优先度获取模块框图;
图10是本发明实施例提供的一种服务器结构示意图;
图11是本发明实施例提供的一种终端结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开一种知识图谱中实体更新的方法,所述方法如图1所示,包括:
S101.获取热词集合。
热词是一段时间内对社会热点事件的重要提示信息,本发明实施例中的热词集合中可以包括一个或多个热词。热词集合的获取方法可以有多种,包括但不限于从新闻、论坛或者用户输入的搜索内容中提取热词,本发明实施例并不对热词集合的具体获取方法进行限制。
在一个可行的实施方式中,还可以判断热词集合中的热词数量是否达到预设的数量阈值,若未达到,则对热词集合中的热词进行扩展,并以扩展结果作为最终得到的热词集合。
比如,若热词集合具体为{“世界杯”、“红黄蓝”、“搜狗”},而预设的数量阈值大于3,则需要对热词集合进行扩展,根据用户的搜索内容,与“世界杯”相关的内容可以包括“世界杯赛程”、“世界杯积分”、“世界杯球星”、“世界杯点球大战”,与“红黄蓝”相关的内容可以包括“红黄蓝亲子园”、“红黄蓝虐童事件”、“红黄蓝三原色”,与“搜狗”相关的内容可以包括“搜狗输入法”和“搜狗浏览器”。因此,热词集合可以被扩展为{“世界杯”、“世界杯赛程”、“世界杯积分”、“世界杯球星”、“世界杯点球大战”、“红黄蓝”、“红黄蓝亲子园”、“红黄蓝虐童事件”、“红黄蓝三原色”、“搜狗”、“搜狗输入法”、“搜狗浏览器”}。
S102.根据所述热词集合在所述知识图谱中获取候选实体集合。
知识图谱本身就是由实体组成的集合,每个实体都有实体名称及其属性。知识图谱中的实体是客观存在的实体,如图2所示,以腾讯为例,在知识图谱中存在一个实体名称为腾讯,还对应存在下述属性:rich_name、实体类型、实体ID、属性列表、属性概览。
实体的属性值随时有可能发生变化,例如:对于篮球运动员,其所属球队,以及荣誉等是经常变化的。由于实体信息是不断变化的,因此知识图谱中的实体需要被更新从而保证其信息的实时性和有效性。
在知识图谱中,根据一个热词可以得到其对应的一个或多个实体。以百科词条这一知识图谱为例,一个实体对应一个词条。若热词是“北京协和医院”,则可以得到其对应的唯一一个词条(实体),词条名称即为“北京协和医院”;若热词是“协和医院”则可以得到其对应的三个词条(实体),词条名称分别为“北京协和医院”、“福建医科大学附属协和医院”和“华中科技大学同济医学院附属协和医院”。
S103.计算所述候选实体集合中的各个候选实体的优先度。
候选实体集合与热词集合存在对应关系,但是并不一定候选实体集合中的各个候选实体均有必要被更新,即根据热词筛选得到的候选实体集合中的候选实体仅仅在热词的维度上考量是有必要进行更新,但是并未对候选实体进行更新的必要性进行评估,因此,本步骤旨在从多个角度综合评估候选实体被更新的必要程度,将所述必要程度数值化并以优先度的形式表示。
S104.根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。
具体地,所述目标实体的个数可以为一个或多个。更新所述目标实体包括重新获取目标实体的相关信息,并以所述相关信息更新所述目标实体的相关属性值。
在一个可行的实施方式中,所述根据优先度在所述候选实体集合中选择目标实体的方法如图3所示,包括:
S1041.按照优先度由高到低的顺序对所述候选实体集合中的候选实体进行排序,得到候选实体列表。
S1043.获取目标数量N。
所述目标数量N可以根据实际情况进行设定,本实施例中不限定其具体获取方式。
S1045.选择所述候选实体列表中的前N个候选实体作为目标实体。
在另一个可行的实施方式中,所述根据优先度在所述候选实体集合中选择目标实体如图4所示,包括:
S1042.获取优先度阈值。
所述优先度阈值可以根据实际情况进行设定,本实施例中不限定其具体获取方式。
S1044.将所述候选实体集合中优先度不小于所述优先度阈值的候选实体作为目标实体。
本发明实施例提供了一种知识图谱中实体更新的方法,根据热度和优先度选取需要被更新的实体,实现了重要实体的及时更新。相较于需要对所有实体均进行更新的现有技术,周期更短,及时性更强。
本发明实施例进一步刚开了一种热词集合获取方法,包括:
S1011.实时采集各种来源的资讯以及用户输入的搜索内容。
所述资讯的来源包括但不限于新闻,微博,论坛,贴吧的内容。
S1012.对上述采集到的资讯以及用户搜索的内容进行分词,去掉停用词,疑似热词集合。
S1013.对所述疑似热词集合中的每个疑似热词,均从网络爬取与其相关的各种资讯。
S1014.利用网络爬取的信息总量,给疑似热词的热度打分,信息总量越大的,分值越高,上不封顶。
S1015.按照预设算法从所述疑似热词集合中选出热词集合。
在一个可行的实施方式中,所述按照预设算法从所述疑似热词列表中选出热词集合,包括:
按照分值由高到低的顺序对所述疑似热词集合中的疑似热词进行排序,得到疑似热词列表。
获取目标数量M,并选择所述疑似热词列表中的前M个疑似热词构成热词集合。所述目标数量M可以根据实际情况进行设定,本实施例中不限定其具体获取方式。
在另一个可行的实施方式中,所述按照预设算法从所述疑似热词列表中选出热词集合,包括:获取分值阈值,选择所述疑似热词集合中分值不小于所述分值阈值的疑似热词构成热词集合。
本发明实施例进一步公开一种根据热词获取候选实体的方法,如图5所示,包括:
P1.在所述知识图谱中查询所述热词对应的实体。
P2.若查询结果不为空,则根据所述查询结果得到所述热词对应的查询结果集。
在知识图谱中,一个热词可能对应多个查询结果,以百科为例,若热词为“马云”,则对应的实体有“阿里巴巴集团创始人马云”、“宁夏军区政治部副团职干事马云”、“国画家马云”、“云南民族大学副教授马云”。在步骤P2中,根据热词得到的多个实体均被列入查询结果集。
P3.获取所述查询结果集中各个查询结果的实体热度。
事实上,查询结果集中的各个查询结果并不一定都是用户搜索的内容,或者时下热点内容,因此,有必要进一步获取查询结果的实体热度。
P4.将实体热度大于预设热度阈值的查询结果纳入候选实体集合。
对于热词集合中各个热词均执行步骤P1-P4即可得到候选实体集合。
为了对于候选实体集合中各个候选实体的优先度进行综合考量,本发明实施例进一步公开了优先度的获取方法,如图6所示,包括:
S1031.获取优先度的各个影响因子。
具体地,本发明实施例中的影像因子包括以下六个:
(1)实体名称的时下热度:
本发明实施例中时下热度以在最近新闻标题和正文的出现次数为标准进行度量。在新闻中出现频次较多的实体,说明其受到的关注较多,信息变化的概率会越高。
(2)实体的属性数量
属性越多的实体越重要。
(3)实体的链接数量
实体的链接越多,表示该实体与其他实体关联越紧密,实体重要度就越高。
(4)实体的类型
不同类型的实体,信息变化情况是不同的,对于体育明星和商业人物,其信息变化的情况就比历史人物和字词类的高。对于不同的类型,设定不同的更新权重,例如:影视明星设置为0.6,体育人物设置为0.6,历史人物为0.2,技术财经明星设置为0.7。
(5)实体既往被编辑次数
被编辑的次数越多,说明该实体信息变化越频繁,需要被更新的可能性越大。
(6)实体被访问的次数
实体被访问的次数越多,说明实体关注度高,需要被更新的可能性越高。
本发明实施例中通过上述六项影响因子从多方面考虑了实体需要被更新的可能性,通过将上述六项因子纳入考量,可以得到较为全面的对于实体更新的必要性的考量结果。
S1032.将各个影响因子数值化得到影响值。
S1033.根据所述影响值得到预测更新频率值。
本发明实施例中可以通过监督学习的方式训练得到回归模型,并基于回归模型和影响值得到预测更新频率值P(x),P(x)值反映的是实体的需要被更新的概率。在一个可行的实施方式中,所述回归模型可以为线性加权模型。
S1034.根据当前时间、所述预测更新频率值以及候选实体的最后更新时间计算候选实体的优先度。
具体地,在一个可行的实施方式中可以根据公式E(x)=P(x)*(tnow(x)-ts(x))计算优先度,其中E(x)表示优先度,P(x)表示预测更新频率值,tnow(x)表示当前时间,ts(x)候选实体的最后更新时间,x表示候选实体。
进一步地,对于与热词相关的但是并未在知识图谱中存在记录的实体,本发明实施例提供两种处理方法:
第一种:在对热词集合中某个热词执行步骤骤P1-P4的过程中,若该热词对应出的查询结果为空,则直接构建所述热词对应的实体,并将所述实体加入所述知识图谱。具体地,以百科为例,构建所述热词对应的实体可以包括新建所述热词对应的实体的词条,并将所述词条纳入百科之中。
第二种:在对热词集合中某个热词执行步骤骤P1-P4的过程中,若该热词对应出的查询结果为空,则根据所述热词生成虚拟候选实体,并将所述虚拟候选实体加入候选实体集合。在步骤S1034中,对于虚拟候选实体,ts(x)取值为无穷大,因此,虚拟候选实体的优先度最高,必然在步骤104中被选为目标实体,并在步骤S104中将虚拟候选实体构建为真实的实体,并将其纳入知识图谱。
本发明实施例中通过归一化将除实体的类型以外的各个影响因子数值化并得到影响值。本发明实施例给出了如下归一化公式:
实体名称的时下热度的归一化值包括两部分:标题热度归一化值=实体名称在新闻标题的出现次数/实体名称在新闻标题的出现次数最大值;正文热度归一化值=实体名称在新闻正文的出现次数/实体名称在新闻正文的出现次数最大值。
实体的属性数量的归一化值=实体的属性数量/实体的属性数量最大值。
实体的链接数量的归一化值=实体的链接数量/实体的链接数量最大值。
实体既往被编辑次数的归一化值=实体既往被编辑次数/实体既往被编辑次数最大值。
实体被访问的次数的归一化值=实体被访问的次数/实体被访问的次数最大值。
以百科中“马化腾”这一实体为例,某次计算其各个影像因子的影响值如下:
(1)实体名称在新闻标题和新闻正文出现的最大值均为1000,则在标题热度归一化值x1为0.1,新闻热度归一化值x2为0.3;
(2)实体的属性数量最大值20,则实体的属性数量的归一化值x3为0.85;
(3)实体的链接数量最大值100,则实体的链接数量的归一化值x4为0.42;
(4)“马化腾”这一实体属于“技术财经明星”,其实体类型的值x5为0.7;
(5)实体既往被编辑次数最大值为1000,则实体既往被编辑次数的归一化值x6为0.56;
(6)实体被访问的次数最大值为100000000,则实体被访问的次数的归一化值x7为0.3。
相应的,在线性加权模型中,各个数值xi对应的权值为ωi,本发明实施例中ω1为0.2,ω2为0.1,ω3为0.2,ω4为0.2,ω5为0.1,ω6为0.2,ω7为0.1,根据线性加权模型
Figure BDA0001737020160000111
计算“马化腾”这一实体的预测更新频率值为0.516。
本发明提供的一种知识图谱中实体更新的方法,根据热度选择候选实体集合,并综合考虑候选实体在新闻中出现的次数、实体属性数量、实体链接数量、实体类型、被编辑次数和访问次数,从而从多维度计算实体的预测更新频率值,并结合时间得到能够表征实体需要被更新的必要性的优先度,从而根据优先度更新实体,这种实体更新方法既兼顾了热点,又综合考虑了与实体更新有关的各方面内容,从而确保更新及时准确。
本发明实施例提供了一种知识图谱中实体更新的装置,如图7所示,包括:
热词集合获取模块301,用于获取热词集合;
候选实体集合获取模块302,用于根据所述热词集合在所述知识图谱中获取候选实体集合;
优先度获取模块303,用于计算所述候选实体集合中的各个候选实体的优先度;
目标实体处理模块304,用于根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。
进一步地,如图8所示,所述候选实体集合获取模块302包括:
实体查找单元3021,用于在所述知识图谱中查询所述热词对应的实体:
查询结果集生成单元3022,用于若查询结果不为空,则根据所述查询结果得到所述热词对应的查询结果集;
实体热度查询单元3023,用于获取所述查询结果集中各个查询结果的实体热度:
候选实体添加单元3024,用于将实体热度大于预设热度阈值的查询结果纳入候选实体集合。
进一步地,如图9所示,所述优先度获取模块303包括:
影响因子获取单元3031,用于获取优先度各个影响因子;
数值化单元3032,用于将各个影响因子数值化得到影响值;
预测更新频率值计算单元3033,用于根据所述影响值得到预测更新频率值;
优先度计算单元3034,用于根据当前时间、所述预测更新频率值以及候选实体的最后更新时间计算候选实体的优先度。
本发明的装置实施例中所述的一种知识图谱中实体更新的装置与方法实施例基于同样地发明构思。
本发明的实施例还提供了一种存储介质,所述存储介质可用于保存用于实现实施例中需要用到的的程序代码。
程序所执行的方法包括:
一种知识图谱中实体更新的方法,包括:
获取热词集合;
根据所述热词集合在所述知识图谱中获取候选实体集合;
计算所述候选实体集合中的各个候选实体的优先度;
根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。
进一步地,所述获取热词集合包括:从新闻、论坛或者用户输入的搜索内容中提取热词。
进一步地,所述获取热词集合还包括:
判断热词集合中的热词数量是否达到预设的数量阈值,若未达到,则对热词集合中的热词进行扩展,并以扩展结果作为最终得到的热词集合。
进一步地,所述根据优先度在所述候选实体集合中选择目标实体包括:
按照优先度由高到低的顺序对所述候选实体集合中的候选实体进行排序,得到候选实体列表;
获取目标数量N;
选择所述候选实体列表中的前N个候选实体作为目标实体。
进一步地,所述根据优先度在所述候选实体集合中选择目标实体包括:
获取优先度阈值;
将所述候选实体集合中优先度不小于所述优先度阈值的候选实体作为目标实体。
进一步地,还包括根据热词获取候选实体,所述根据热词获取候选实体包括:
在所述知识图谱中查询所述热词对应的实体:
若查询结果不为空,则根据所述查询结果得到所述热词对应的查询结果集;
获取所述查询结果集中各个查询结果的实体热度:
将实体热度大于预设热度阈值的查询结果纳入候选实体集合。
进一步地,候选实体的优先度的获取方法包括:
获取优先度各个影响因子;
将各个影响因子数值化得到影响值;
根据所述影响值得到预测更新频率值;
根据当前时间、所述预测更新频率值以及候选实体的最后更新时间计算候选实体的优先度。
进一步地,所述影响因子包括:实体名称的时下热度、实体的属性数量、实体的链接数量、实体的类型、实体既往被编辑次数和实体被访问的次数。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络设备中的至少一个网络设备。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
具体地,图10是本发明实施例提供的一种服务器结构示意图,所述服务器结构可以用于运行一种知识图谱中实体更新的装置。该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。上述方法实施例所执行的步骤可以基于该图10示的服务器结构。
本实施例提供了一种终端,该终端可以用于执行上述各个实施例中提供的一种知识图谱中实体更新的装置。参见图11,该终端1500包括:
终端1500可以包括RF(Radio Frequency,射频)电路1510、包括有一个或一个以上计算机可读存储介质的存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、WiFi(Wireless Fidelity,无线保真)模块1570、包括有一个或者一个以上处理核心的处理器1580、以及电源150等部件。本领域技术人员可以理解,图11中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器1580处理;另外,将涉及上行的数据发送给基站。通常,RF电路1510包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(LowNoiseAmplifier,低噪声放大器)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System ofMobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision MultipleAccess,码分多址)、WCDMA(Wideband Code DivisionMultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端1500的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1520还可以包括存储器控制器,以提供处理器1580和输入单元1530对存储器1520的访问。
输入单元1530可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元1530可包括触敏表面1531以及其他输入设备1532。触敏表面1531,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1531上或在触敏表面1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1531。除了触敏表面1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及终端1500的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1540可包括显示面板1541,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1541。进一步的,触敏表面1531可覆盖显示面板1541,当触敏表面1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图11中,触敏表面1531与显示面板1541是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面1531与显示面板1541集成而实现输入和输出功能。
终端1500还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度,接近传感器可在终端1500移动到耳边时,关闭显示面板1541和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端1500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与终端1500之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一终端,或者将音频数据输出至存储器1520以便进一步处理。音频电路1560还可能包括耳塞插孔,以提供外设耳机与终端1500的通信。
WiFi属于短距离无线传输技术,终端1500通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1570,但是可以理解的是,其并不属于终端1500的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是终端1500的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行终端1500的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1580可包括一个或多个处理核心;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
终端1500还包括给各个部件供电的电源150(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源150还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端1500还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行以下操作的指令:
获取热词集合;
根据所述热词集合在所述知识图谱中获取候选实体集合;
计算所述候选实体集合中的各个候选实体的优先度;
根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。
需要说明的是:上述本发明实施例的先后顺序仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种知识图谱中实体更新的方法,其特征在于,包括:
获取热词集合;
在所述知识图谱中查询所述热词集合中每个热词对应的实体,得到所述每个热词对应的查询结果;
若所述查询结果为空,则根据对应的热词生成虚拟候选实体,所述虚拟候选实体的最后更新时间被设置为预设值,以使得所述虚拟候选实体的优先度最高;
获取全部所述查询结果中各个实体的实体热度;
根据所述实体热度大于预设热度阈值的所述实体以及所述虚拟候选实体,得到候选实体集合;
获取用于计算所述优先度的各个影响因子;所述优先度为数值化形式表示的候选实体被更新的必要程度;所述影响因子包括实体名称的时下热度、实体的属性数量、实体的链接数量、实体的类型、实体既往被编辑次数和实体被访问的次数;
将各个所述影响因子数值化得到影响值;
根据所述影响值得到预测更新频率值;所述预测更新频率值反映实体的需要被更新的概率;
根据当前时间、所述预测更新频率值以及候选实体的最后更新时间计算所述候选实体的优先度;
根据所述优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。
2.根据权利要求1所述的方法,其特征在于,所述获取热词集合还包括:
判断热词集合中的热词数量是否达到预设的数量阈值,若未达到,则对热词集合中的热词进行扩展,并以扩展结果作为最终得到的热词集合。
3.根据权利要求1所述的方法,其特征在于,所述根据优先度在所述候选实体集合中选择目标实体包括:
按照优先度由高到低的顺序对所述候选实体集合中的候选实体进行排序,得到候选实体列表;
获取目标数量N;
选择所述候选实体列表中的前N个候选实体作为目标实体。
4.根据权利要求1所述的方法,其特征在于,所述根据优先度在所述候选实体集合中选择目标实体包括:
获取优先度阈值;
将所述候选实体集合中优先度不小于所述优先度阈值的候选实体作为目标实体。
5.一种知识图谱中实体更新的装置,其特征在于,包括:
热词集合获取模块,用于获取热词集合;
候选实体集合获取模块,用于在所述知识图谱中查询所述热词集合中每个热词对应的实体,得到所述每个热词对应的查询结果;若所述查询结果为空,则根据对应的热词生成虚拟候选实体,所述虚拟候选实体的最后更新时间被设置为预设值,以使得所述虚拟候选实体的优先度最高;获取全部所述查询结果中各个实体的实体热度;根据所述实体热度大于预设热度阈值的所述实体以及所述虚拟候选实体,得到候选实体集合;
优先度获取模块,用于获取用于计算所述优先度的各个影响因子;所述优先度为数值化形式表示的候选实体被更新的必要程度;所述影响因子包括实体名称的时下热度、实体的属性数量、实体的链接数量、实体的类型、实体既往被编辑次数和实体被访问的次数;将各个所述影响因子数值化得到影响值;根据所述影响值得到预测更新频率值;所述预测更新频率值反映实体的需要被更新的概率;根据当前时间、所述预测更新频率值以及候选实体的最后更新时间计算所述候选实体的优先度;
目标实体处理模块,用于根据所述优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。
6.一种服务器,其特征在于,所述服务器用于运行权利要求5所述的一种知识图谱中实体更新的装置。
7.一种终端,其特征在于,所述终端用于运行权利要求5所述的一种知识图谱中实体更新的装置。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,所述程序由相关硬件执行以实现如权利要求1-4中任意一项所述的知识图谱中实体更新的方法。
CN201810800674.8A 2018-07-20 2018-07-20 一种知识图谱中实体更新的方法、装置和服务器 Active CN110019840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810800674.8A CN110019840B (zh) 2018-07-20 2018-07-20 一种知识图谱中实体更新的方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810800674.8A CN110019840B (zh) 2018-07-20 2018-07-20 一种知识图谱中实体更新的方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN110019840A CN110019840A (zh) 2019-07-16
CN110019840B true CN110019840B (zh) 2021-06-15

Family

ID=67188387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810800674.8A Active CN110019840B (zh) 2018-07-20 2018-07-20 一种知识图谱中实体更新的方法、装置和服务器

Country Status (1)

Country Link
CN (1) CN110019840B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674313B (zh) * 2019-09-20 2022-12-13 四川长虹电器股份有限公司 一种基于用户日志动态更新知识图谱的方法
CN111444181B (zh) * 2020-03-20 2021-05-11 腾讯科技(深圳)有限公司 知识图谱更新方法、装置及电子设备
CN113553436A (zh) * 2020-04-23 2021-10-26 广东博智林机器人有限公司 一种知识图谱更新方法、装置、电子设备和存储介质
CN111914550B (zh) * 2020-07-16 2023-12-15 华中师范大学 一种面向限定领域的知识图谱更新方法及系统
CN111859238B (zh) * 2020-07-27 2024-07-16 平安科技(深圳)有限公司 基于模型的预测数据变化频率的方法、装置和计算机设备
CN113705236B (zh) * 2021-04-02 2024-06-11 腾讯科技(深圳)有限公司 实体比较方法、装置、设备及计算机可读存储介质
CN115658931B (zh) * 2022-12-27 2023-04-07 清华大学 百科知识图谱动态更新方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214207A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种用于对信息实体中的属性集合进行排序的方法与设备
CN106844603A (zh) * 2017-01-16 2017-06-13 竹间智能科技(上海)有限公司 实体热门度的计算方法及装置、应用方法及装置
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN107908637A (zh) * 2017-09-26 2018-04-13 北京百度网讯科技有限公司 一种基于知识库的实体更新方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9235653B2 (en) * 2013-06-26 2016-01-12 Google Inc. Discovering entity actions for an entity graph
CN104615687B (zh) * 2015-01-22 2018-05-22 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN106339401A (zh) * 2015-07-16 2017-01-18 富士通株式会社 确定实体之间的关系的方法和设备
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214207A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种用于对信息实体中的属性集合进行排序的方法与设备
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN106844603A (zh) * 2017-01-16 2017-06-13 竹间智能科技(上海)有限公司 实体热门度的计算方法及装置、应用方法及装置
CN107908637A (zh) * 2017-09-26 2018-04-13 北京百度网讯科技有限公司 一种基于知识库的实体更新方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System;Bo Xu 等;《Springer》;20170603;第428-438页 *

Also Published As

Publication number Publication date
CN110019840A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019840B (zh) 一种知识图谱中实体更新的方法、装置和服务器
US20170091335A1 (en) Search method, server and client
CN108073605B (zh) 一种业务数据的加载、推送、交互信息的生成方法和装置
CN108334539B (zh) 对象推荐方法、移动终端及计算机可读存储介质
CN104239535B (zh) 一种为文字配图的方法、服务器、终端及系统
CN110704661B (zh) 一种图像分类方法和装置
CN110164415B (zh) 一种基于语音识别的推荐方法、装置及介质
CN108156508B (zh) 弹幕信息处理的方法、装置、移动终端、服务器及系统
CN109948090B (zh) 网页加载方法及装置
TW201512865A (zh) 一種網頁數據搜索方法、裝置和系統
CN107885718B (zh) 语义确定方法及装置
CN110276010A (zh) 一种权重模型训练方法和相关装置
WO2015027909A1 (en) Method and apparatus for obtaining hot-topic information
CN114357278B (zh) 一种话题推荐方法、装置及设备
CN108897846B (zh) 信息搜索方法、设备及计算机可读存储介质
CN110633438A (zh) 一种新闻事件处理的方法、终端、服务器及存储介质
CN108595107B (zh) 一种界面内容处理方法及移动终端
CN107577726B (zh) 一种搜索方法、服务器及计算机可读存储介质
CN110781274A (zh) 一种问答对生成的方法与装置
CN103455594B (zh) 一种浏览器地址栏推荐网址的方法、装置及终端设备
CN112925878B (zh) 数据处理方法和装置
CN109389977A (zh) 一种语音交互方法及装置
CN108415996A (zh) 一种新闻信息推送方法、装置及电子设备
CN113360796A (zh) 数据排序方法及装置、数据排序模型训练方法及装置
CN108897774B (zh) 一种获取新闻热点的方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant