CN112860714A - 知识库、数据库、信息更新方法和装置 - Google Patents

知识库、数据库、信息更新方法和装置 Download PDF

Info

Publication number
CN112860714A
CN112860714A CN201911100993.9A CN201911100993A CN112860714A CN 112860714 A CN112860714 A CN 112860714A CN 201911100993 A CN201911100993 A CN 201911100993A CN 112860714 A CN112860714 A CN 112860714A
Authority
CN
China
Prior art keywords
query object
query
data
knowledge base
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911100993.9A
Other languages
English (en)
Inventor
赵雨恬
王云立
饶亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Banma Zhixing Network Hongkong Co Ltd
Original Assignee
Banma Zhixing Network Hongkong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Banma Zhixing Network Hongkong Co Ltd filed Critical Banma Zhixing Network Hongkong Co Ltd
Priority to CN201911100993.9A priority Critical patent/CN112860714A/zh
Publication of CN112860714A publication Critical patent/CN112860714A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识库、数据库、信息更新方法和装置。该方法包括:确定查询请求中的查询对象;在所述知识库/数据库/信息中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及基于所述查询对象的相关数据,更新所述知识库/数据库/信息。由此,更加有效地更新知识库/数据库/信息,提升知识库/数据库/信息的数据完备性。

Description

知识库、数据库、信息更新方法和装置
技术领域
本发明涉及互联网技术领域,特别涉及一种知识图谱构建方法和装置。
背景技术
随着信息技术的飞速发展,人们越来越多地借助网络来寻找自己需要的信息。目前,为了向用户提供更为精准的搜索服务,一种结构化的语义知识库即知识图谱,越来越多地应用到搜索领域。
目前,知识图谱大多采用以公开采集的海量网页数据为数据源,通过自动抽取资源的方式来丰富现有知识库。然而,只采用该方式获取知识存在诸多不足。例如,一些领域(例如娱乐领域)知识更新迭代快,传统方法可能造成知识缺漏及延迟更新等状况;海量数据源补充至知识库的方法与用户需求脱节,用户体验较差。
因此,仍然需要一种更为完善的知识图谱构建方案。
发明内容
本公开的目的是提供一种知识图谱构建方法和装置,更加有效地更新知识库/数据库/信息,提高知识库/数据库/信息的数据完备性。
根据本公开的第一个方面,提出了一种知识库更新方法,包括:确定查询请求中的查询对象;在所述知识库中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及基于所述查询对象的相关数据,更新所述知识库。
可选地,获取所述查询对象的相关数据的步骤包括:确定所述查询对象的优先级;以及基于所述优先级,获取所述查询对象的相关数据。
可选地,基于下述的至少一项确定所述查询对象的优先级:所述查询对象累计被请求查询的次数;所述查询对象在预定时间段内被请求查询的次数;所述查询对象与热点对象或热点事件的关联性。
可选地,获取所述查询对象的相关数据的步骤包括:在所述查询对象满足预定条件的情况下,获取所述查询对象的相关数据。
可选地,所述预定条件包括下述的至少一项:所述查询对象累计被请求查询的次数达到第一阈值;所述查询对象在预定时间段内被请求查询的次数达到第二阈值;所述查询对象与热点对象或热点事件关联。
可选地,该方法还可以包括:在所述知识库中未查询到所述查询对象的情况下,在所述知识库中记录所述查询对象。
可选地,在所述知识库中未查询到所述查询对象的情况下,还包括:判断所述查询对象是否存在。
可选地,获取所述查询对象的相关数据的步骤包括:从所述查询请求中获取所述相关数据;以及/或者人工输入所述相关数据;以及/或者从网站收集所述查询对象的所述相关数据。
可选地,收集所述查询对象的所述相关数据的步骤包括:针对所述查询对象设置埋点;基于所述埋点收集与所述查询对象相关的相关数据。
可选地,在下述至少一项中设置所述埋点:所述知识库;服务器端;用户的客户端。
可选地,所述查询对象的相关数据包括下述的至少一项:所述查询对象的属性数据;与所述查询对象相关的实体数据及实体间关系数据。
可选地,基于所述查询对象的相关数据更新所述知识库的步骤包括:将所述相关数据添加到数据源;对所述数据源进行数据处理,得到与查询对象相关的经过数据处理的关联数据;基于所述关联数据,更新所述知识库。
可选地,所述数据处理包括下述的至少一项:实体抽取;关系抽取;知识融合。
可选地,该方法还可以包括:接收所述查询请求;以及在所述知识库中查询到所述查询对象的情况下,返回所述查询对象的相关数据。
可选地,从用户的查询日志中获取所述查询请求。
根据本公开的第二个方面,提出了一种数据库更新方法,包括:确定查询请求中的查询对象;在所述数据库中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及基于所述查询对象的相关数据,更新所述数据库。
根据本公开的第三个方面,提出了一种信息更新方法,包括:确定查询请求中的查询对象;在所述信息中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及基于所述查询对象的相关数据,更新所述信息。
根据本公开的第四个方面,还提出了一种知识库更新装置,包括:查询对象确定装置,用于确定查询请求中的查询对象;数据获取装置,用于在所述知识库中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及更新装置,用于基于所述查询对象的相关数据,更新所述知识库。
根据本公开的第五个方面,还提出了一种数据库更新装置,包括:查询对象确定装置,用于确定查询请求中的查询对象;数据获取装置,用于在所述数据库中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及更新装置,用于基于所述查询对象的相关数据,更新所述数据库。
根据本公开的第六个方面,还提出了一种信息更新装置,包括:查询对象确定装置,用于确定查询请求中的查询对象;数据获取装置,用于在所述信息中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及更新装置,用于基于所述查询对象的相关数据,更新所述信息。
根据本公开的第七个方面,还提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
根据本公开的第八个方面,还提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
由此,通过利用查询请求中涉及的查询对象(例如实体),来获取数据,以对现有知识库/数据库/信息进行更新,从而使得知识库/数据库/信息中的知识/数据/信息能够及时迭代。同时,利用用户的查询请求来更新知识库,使得知识库/数据库/信息中的知识/数据/信息更加能够满足用户需求,从而提升用户体验。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本公开一个实施例的知识库更新方法的流程示意图。
图2示出了根据本公开一个实施例的知识库更新流程示意图。
图3示出了根据本公开一个实施例的知识库更新装置的示意性框图。
图4示出了根据本发明一实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
知识图谱是一种结构化的语义知识库,以符号形式描述物理世界中的概念及其相互关系。例如,其基本组成单位可以是“实体-关系-实体”三元组(例如“XXX–老婆–YYY”,其中“XXX”和“YYY”分别为人名),以及实体及其相关属性-值对(例如“XXX–生日–9月9日”),实体间通过关系相互联结,构成网状的知识结构。
目前,知识图谱大多采用例如自顶向下或自底向上的方式构建及更新方式。
自顶向下的构建方式,是知识图谱技术发展初期较为常用的构建方法,其例如基于百科类网站等结构化数据源,从高质量的数据中提取本体和模式信息,加入到知识库中。
自底向上的方式,是目前知识图谱大多采用的构建方法,其例如通过借助一定的技术手段,从公开采集的海量网页数据中提取资源的模式,选择其中置信度较高的新模式,经过人工审核后加入知识库中。
然而,采用这些方式获取知识,存在至少两个方面的问题:
(1)知识图谱建设方面:有些领域知识更新迭代快,例如娱乐领域,如果仅采用如上所述的传统方法,可能会造成知识缺漏及更新延迟等状况。
(2)用户体验方面:基于上述方法将海量数据源补充至知识库的方法与用户需求脱节,所补充的知识很大程度上不能满足用户的需求,用户体验较差。
有鉴于此,本发明提出了一种知识库更新方案,通过利用查询请求中涉及的实体,来获取数据,以对现有知识库进行更新,从而使得知识库中的知识能够及时迭代。同时,利用用户的查询请求来更新知识库,使得知识库中的知识尽可能地命中用户查询,更加满足用户查询需求,从而提升用户体验。
该知识库更新方案是一种用户驱动式更新方案,即在知识图谱场景下,通过用户查询请求中包含的实体、属性、关系等,来反哺知识图谱中缺失的部分。如下将结合附图及实施例详细说明本公开的知识库更新方案。
图1示出了根据本公开一个实施例的知识库更新方法的流程示意图。其中,该知识库可以应用于搜索场景下,该知识库可以用于为搜索场景提供搜索信息。该更新方法可以由服务器执行,也可以由相应的更新装置(例如下图3所示的知识库更新装置)执行,本公开对此不做限制。
图2示出了根据本公开一个实施例的知识库更新流程示意图。为了更好地理解本公开的技术方案,如下将结合图1-2进行详细说明。
如图1所示,在步骤S120,确定查询请求中的查询对象。
这里的查询请求可以与用户相关。其中,可以通过多种方式获取该查询请求。
在一个实施例中,该查询请求可以由用户触发。其中,用户可以通过其终端设备发起查询请求。例如参见图2所示的流程图,在步骤S110,用户可以在其终端设备侧显示的搜索框中输入其期望查询的查询语句(query),该终端设备可以响应于用户的输入而发起相应的查询请求。用于执行该更新方法的设备和/或服务器和/或相关装置,可以接收该查询请求,并确定其中所可能包括的查询对象。在其它实施例中,例如也可以从用户的查询日志中获取该查询请求。本公开对此不做限制。
查询请求中所包括的查询对象,可以是用户期望查询的任何对象或事物,其可以是具体的人、事、物,也可以抽象的概念、联系等。在一个实施例中,该查询对象可以是实体。
查询请求中可以包括一个或多个实体,也可以包括实体的属性、实体关系等。在一个实施例中,可以通过对所述查询请求进行解析,以确定其中所包含的实体和/或实体属性和/或实体关系等。
基于所确定的查询对象,可以在知识库中进行检索,以便向用户返回其所期望查询到的数据和/或内容。
这里的知识库既可以是尚未构建的知识库,也可以是完成初步构建并需要进一步完善的知识库。并且,该知识库可以是领域知识库,也可以是通用知识库,还可以是针对某种业务或者某种系统等的知识库,本公开对此不做限制。
参见图2所示的流程图,以用户输入的查询语句“XXX的ZZZZ”(“ZZZZ”为歌名)触发的查询请求为例,该查询请求中所包括的实体有“XXX”、“ZZZZ”。随后,可以基于该实体“XXX”、“ZZZZ”,在知识库中进行检索查询。
在一个实施例中,可以将实体“XXX”、“ZZZZ”均作为查询对象,在知识库中分别查询实体“XXX”、“ZZZZ”。
在另一个实施例中,也可以对该查询请求进行理解之后,确定用户实际上所期望查询的对象,即实体“ZZZZ”。此时也可以根据理解结果,仅将该实体“ZZZZ”作为查询对象,在知识库中进行检索查询。查询对象的确定方式可以根据实际需求设定,本公开对此具体实现形式不做限制。
在步骤S130,在所述知识库中查询到所述查询对象的情况下,可以向用户返回该查询对象的相关数据。其中,所述查询对象的相关数据可以包括与该查询对象相关的任何数据,包括但不限于该查询对象的属性数据、与所述查询对象相关的实体数据及实体间关系数据等。
参见图2所示的流程图,以实体“ZZZZ”作为查询对象,当在知识库中查询到该实体时,即该知识库中存在该实体的相关数据,可以向用户返回“ZZZZ”的相关数据,包括但不限于该歌曲“ZZZZ”的名称、实体属性信息(例如作词人、作曲人、演唱者等)以及内容数据(例如歌词、音频文件等)等。由此,用户可以方便地获取到其期望查询的数据和/或内容。
而在所述知识库中未查询到该查询对象(例如实体“ZZZZ”),即该知识库中不存在该实体的相关数据,其可能是由于该实体以及其相关数据并未被补全到该知识库,此时,可以基于该查询请求或查询对象(例如实体“ZZZZ”),来更新该知识库。
例如,在步骤S140,在所述知识库中未查询到所述查询对象的情况下,可以获取所述查询对象的相关数据。在步骤S150,基于所述查询对象的相关数据,更新所述知识库。
其中,可以基于该查询对象,从多种数据库中获取该查询对象的相关数据,以便于对该知识库进行补充或者更新,使得知识库中的知识更为完备,并提升该实体与用户的关联性。
另外,为了保障知识库中的知识能够及时更新,并使得更新之后的知识库能够尽可能地命中用户的查询,本发明实施例中,例如可以根据用户需求来设定知识库的更新规则。
在一个实施例中,可以为查询对象设定优先级,该优先级可以在一定程度上反映该查询对象的相关数据被用于更新知识库的先后顺序。具体地,获取所述查询对象的相关数据的步骤可以包括:确定所述查询对象的优先级;以及基于所述优先级,获取所述查询对象的相关数据。在此,可以使得优先级别较高的查询对象的相关数据被优先用于更新知识库,而优先级别较低的查询对象的相关数据较晚用于更新知识库。
在其中,可以通过多种方式确定查询对象的优先级。例如,可以基于用户对该查询对象的需求强度确定。其中,可以通过一些信息,确定该查询对象的需求强度。例如,可以基于所述查询对象累计被请求查询的次数、所述查询对象在预定时间段内被请求查询的次数、所述查询对象与热点对象或热点事件的关联性等。
当该查询对象被累计查询的次数越多、或者在预定时间段内被查询的次数越多、或者与热点对象或热点事件的关联性越强,表明用户对该查询对象的查询需求越强烈。通过优先将被强烈需求的查询对象的相关数据补充至知识库中,使得知识库中的知识更加完备,以便于提高查询命中率。由此,在其他用户发起针对该查询对象的搜索请求时,即可向用户返回其所需要的相应的结果,从而提升用户体验。
在另一个实施例中,也可以预先设定预定条件,并可以在查询对象满足预定条件的情况下,获取查询对象的相关数据。其中,所述预定条件包括下述的至少一项:所述查询对象累计被请求查询的次数达到第一阈值;所述查询对象在预定时间段内被请求查询的次数达到第二阈值;所述查询对象与热点对象或热点事件关联。
上述预定条件及其中所涉及的具体细节(例如第一阈值、第二阈值、预定时间段、热点对象、热点事件等)可以根据需要进行设定,该预定条件也可以根据实际情况而进行修改和/或完善,本公开对此不做限制。
这样,对于满足预定条件的查询对象,可以优先将其相关数据补充以用于更新知识库,从而尽可能地降低知识库中的知识的遗漏或者更新延迟。
为了更好地实现对知识库中的知识的更新,在一个实施例中,在所述知识库中未查询到所述查询对象的情况下,还可以在所述知识库中记录所述查询对象。这样,可以通过对所记录的查询对象被请求查询的次数和/或频率和/或时机等的统计,以判定该查询对象是否满足如前所述的优先级或者预定条件,并在满足相关条件时,对该查询对象的相关数据进行挖掘并补充至知识库中,以进一步地完善该知识库的知识储备。
本发明实施例中,可以通过多种方式来获取查询对象的相关数据,本公开对该相关数据的收集方式不做限制。
在一些领域中,例如娱乐领域、新闻时事领域等,知识更新迭代较快,相比而言,用户或其他人员对于某些知识的更新较快,此时,可以通过从查询请求中获取相关数据或者通过人工输入相关数据,并更新知识库,能够极大地提升知识库的更新速率,并提升用户查询命中率。
或者,还可以例如从相关网站中收集该查询对象的相关数据,以便于进一步完善知识库。
其中,为了提升数据收集效率,可以通过数据埋点的方式来收集查询对象的相关数据。具体地,收集所述查询对象的所述相关数据的步骤可以包括:针对所述查询对象设置埋点;基于所述埋点收集与所述查询对象相关的相关数据。其中,例如可以将该埋点设置在知识库中,也可以将该埋点设置在服务器端或者用户的客户端等,本公开对此不做限制。当然,本发明其它实施例中,也可以通过其它方式实现高效的数据收集,在此不再赘述。
返回图2所示的流程图,例如可以通过右侧虚线框所示的流程图,来获取查询对象的相关数据。通过左侧虚线框所示的流程图,来对数据源进行数据处理,以更新知识库。
参见图2,在知识库中未查询到查询对象的情况下,在步骤S141,例如可以通过数据埋点的方式,在该知识库中记录查询对象或者查询请求。
在步骤S142,确定查询对象的优先级,或者判定该查询对象是否满足预定条件。
在步骤S143,在查询对象符合优先级要求或者满足预定条件的情况下,可以收集该查询对象的相关数据,以便将该相关数据作为数据源,用于更新知识库。其中,所述查询对象的相关数据可以包括下述的至少一项:所述查询对象的属性数据;与所述查询对象相关的实体数据及实体间关系数据。
之后,在步骤S144,可以将所述相关数据添加到数据源。之后,即可通过对数据源的数据进行处理,从而更新知识库。
参见图2,本发明实施例中,可以搜索并整合数据源。数据源例如可以包括网页等半结构化数据(例如通用百科数据)、百科类结构化数据(例如领域百科数据)、预定业务系统数据、外部系统输入数据、以及所获取的查询对象的相关数据等。
在此,可以对所述数据源进行数据处理,得到与查询对象相关的经过数据处理的关联数据。其中,所述数据处理可以包括对不同数据源进行的知识抽取的相关处理,包括但不限于:在步骤S151进行实体抽取,例如通过实体抽取模型从数据源中识别并归类领域相关实体及其属性;在步骤S152进行关系抽取,例如通过关系抽取模型从数据源中识别实体间的关系;在步骤S153进行知识融合,例如将新获取的实体属性及关系的值统一规范化,并与知识库中已有知识进行实体对齐、属性融合等;在步骤S154,例如对该部分新数据进行质量监控,补充缺漏知识并纠正错误知识等。
之后,在步骤S155,可以基于所述关联数据,更新所述知识库,例如将高质量的数据补充至知识图谱数据库中。
由此,本公开实施例中,通过从查询请求或者用户的查询日志或者其它能够包括用户查询请求的信息,来进行数据挖掘,针对热门及更新迭代快的数据,能够快速、高效地建设相应的知识图谱,保障知识的及时迭代。同时,将用户意图与底层图库的更新机制紧密联系起来,对用户需求较为强烈的缺失知识优先进行补全或者更新,提升用户体验。
应当理解的是,本公开的知识库更新方案不仅可以适用于针对新实体的数据挖掘,还可以使用针对某实体的属性信息或者与其相关的实体关系数据的挖掘,本公开对此不做限制。
图3示出了根据本公开一个实施例的知识库更新装置的示意性框图。其中,知识库更新装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图3所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就知识库更新装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关的描述,这里不再赘述。
如图3所示,该知识库更新装置300可以包括查询对象确定装置310、数据获取装置320和更新装置330。
查询对象确定装置310可以确定查询请求中的查询对象。
数据获取装置320可以在所述知识库中未查询到所述查询对象的情况下,获取所述查询对象的相关数据。
更新装置330可以基于所述查询对象的相关数据,更新所述知识库。
本发明实施例中,获取所述查询对象的相关数据的步骤可以包括:确定所述查询对象的优先级;以及基于所述优先级,获取所述查询对象的相关数据。
在本发明实施例中,基于下述的至少一项确定所述查询对象的优先级:所述查询对象累计被请求查询的次数;所述查询对象在预定时间段内被请求查询的次数;所述查询对象与热点对象或热点事件的关联性。
在本发明实施例中,获取所述查询对象的相关数据的步骤可以包括:在所述查询对象满足预定条件的情况下,获取所述查询对象的相关数据。
在本发明实施例中,所述预定条件包括下述的至少一项:所述查询对象累计被请求查询的次数达到第一阈值;所述查询对象在预定时间段内被请求查询的次数达到第二阈值;所述查询对象与热点对象或热点事件关联。
在本发明实施例中,在所述知识库中未查询到所述查询对象的情况下,还可以在所述知识库中记录所述查询对象。
在本发明实施例中,在所述知识库中未查询到所述查询对象的情况下,还可以判断所述查询对象是否存在。
在本发明实施例中,获取所述查询对象的相关数据的步骤可以包括:从所述查询请求中获取所述相关数据;以及/或者人工输入所述相关数据;以及/或者收集所述查询对象的所述相关数据。
在本发明实施例中,收集所述查询对象的所述相关数据的步骤可以包括:针对所述查询对象设置埋点;基于所述埋点收集与所述查询对象相关的相关数据。
在本发明实施例中,可以在下述至少一项中设置所述埋点:所述知识库;服务器端;用户的客户端。
在本发明实施例中,所述查询对象的相关数据包括下述的至少一项:所述查询对象的属性数据;与所述查询对象相关的实体数据及实体间关系数据。
在本发明实施例中,基于所述查询对象的相关数据更新所述知识库的步骤包括:将所述相关数据添加到数据源;对所述数据源进行数据处理,得到与查询对象相关的经过数据处理的关联数据;基于所述关联数据,更新所述知识库。
在本发明实施例中,所述数据处理包括下述的至少一项:实体抽取;关系抽取;知识融合。
在本发明实施例中,可以从用户的查询日志中获取所述查询请求。还可以接收所述查询请求;以及在所述知识库中查询到所述查询对象的情况下,返回所述查询对象的相关数据。
上文中描述了对知识库进行更新的方案。应当理解,本发明的技术方案同样也适用于对数据库、信息进行更新。
换言之,本发明的技术方案也可以实施为一种数据库更新方法和装置,或者一种信息更新方法和装置。通过和上面描述的同样的方案,可以对数据库或信息进行更新。
图4示出了根据本发明一实施例的计算设备的结构示意图。
参见图4,计算设备400包括存储器410和处理器420。
处理器420可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器420可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器420可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器410可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器420或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器410可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器410可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器410上存储有可处理代码,当可处理代码被处理器420处理时,可以使处理器420执行上文述及的知识库/数据库/信息更新方法。
上文中已经参考附图详细描述了根据本发明的知识库/数据库/信息更新方法和装置。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (22)

1.一种知识库更新方法,其特征在于,包括:
确定查询请求中的查询对象;
在所述知识库中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及
基于所述查询对象的相关数据,更新所述知识库。
2.根据权利要求1所述的方法,其特征在于,获取所述查询对象的相关数据的步骤包括:
确定所述查询对象的优先级;以及
基于所述优先级,获取所述查询对象的相关数据。
3.根据权利要求2所述的方法,其特征在于,基于下述的至少一项确定所述查询对象的优先级:
所述查询对象累计被请求查询的次数;
所述查询对象在预定时间段内被请求查询的次数;
所述查询对象与热点对象或热点事件的关联性。
4.根据权利要求1所述的方法,其特征在于,获取所述查询对象的相关数据的步骤包括:
在所述查询对象满足预定条件的情况下,获取所述查询对象的相关数据。
5.根据权利要求4所述的方法,其特征在于,所述预定条件包括下述的至少一项:
所述查询对象累计被请求查询的次数达到第一阈值;
所述查询对象在预定时间段内被请求查询的次数达到第二阈值;
所述查询对象与热点对象或热点事件关联。
6.根据权利要求1所述的方法,其特征在于,其特征在于,还包括:
在所述知识库中未查询到所述查询对象的情况下,在所述知识库中记录所述查询对象。
7.根据权利要求1所述的方法,其特征在于,在所述知识库中未查询到所述查询对象的情况下,还包括:
判断所述查询对象是否存在。
8.根据权利要求1所述的方法,其特征在于,获取所述查询对象的相关数据的步骤包括:
从所述查询请求中获取所述相关数据;以及/或者
人工输入所述相关数据;以及/或者
收集所述查询对象的所述相关数据。
9.根据权利要求8所述的方法,其特征在于,收集所述查询对象的所述相关数据的步骤包括:
针对所述查询对象设置埋点;
基于所述埋点收集与所述查询对象相关的相关数据。
10.根据权利要求9所述的方法,其特征在于,在下述至少一项中设置所述埋点:
所述知识库;
服务器端;
用户的客户端。
11.根据权利要求1所述的方法,其特征在于,所述查询对象的相关数据包括下述的至少一项:
所述查询对象的属性数据;
与所述查询对象相关的实体数据及实体间关系数据。
12.根据权利要求11所述的方法,其特征在于,基于所述查询对象的相关数据更新所述知识库的步骤包括:
将所述相关数据添加到数据源;
对所述数据源进行数据处理,得到与查询对象相关的经过数据处理的关联数据;
基于所述关联数据,更新所述知识库。
13.根据权利要求12所述的方法,其特征在于,所述数据处理包括下述的至少一项:
实体抽取;
关系抽取;
知识融合。
14.根据权利要求1所述的方法,其特征在于,还包括:
接收所述查询请求;以及
在所述知识库中查询到所述查询对象的情况下,返回所述查询对象的相关数据。
15.根据权利要求1所述的方法,其特征在于,
从用户的查询日志中获取所述查询请求。
16.一种数据库更新方法,其特征在于,包括:
确定查询请求中的查询对象;
在所述数据库中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及
基于所述查询对象的相关数据,更新所述数据库。
17.一种信息更新方法,其特征在于,包括:
确定查询请求中的查询对象;
在所述信息中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及
基于所述查询对象的相关数据,更新所述信息。
18.一种知识库更新装置,其特征在于,包括:
查询对象确定装置,用于确定查询请求中的查询对象;
数据获取装置,用于在所述知识库中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及
更新装置,用于基于所述查询对象的相关数据,更新所述知识库。
19.一种数据库更新装置,其特征在于,包括:
查询对象确定装置,用于确定查询请求中的查询对象;
数据获取装置,用于在所述数据库中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及
更新装置,用于基于所述查询对象的相关数据,更新所述数据库。
20.一种信息更新装置,其特征在于,包括:
查询对象确定装置,用于确定查询请求中的查询对象;
数据获取装置,用于在所述信息中未查询到所述查询对象的情况下,获取所述查询对象的相关数据;以及
更新装置,用于基于所述查询对象的相关数据,更新所述信息。
21.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至17中任何一项所述的方法。
22.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至17中任一项所述的方法。
CN201911100993.9A 2019-11-12 2019-11-12 知识库、数据库、信息更新方法和装置 Pending CN112860714A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911100993.9A CN112860714A (zh) 2019-11-12 2019-11-12 知识库、数据库、信息更新方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911100993.9A CN112860714A (zh) 2019-11-12 2019-11-12 知识库、数据库、信息更新方法和装置

Publications (1)

Publication Number Publication Date
CN112860714A true CN112860714A (zh) 2021-05-28

Family

ID=75984292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911100993.9A Pending CN112860714A (zh) 2019-11-12 2019-11-12 知识库、数据库、信息更新方法和装置

Country Status (1)

Country Link
CN (1) CN112860714A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327910A (ja) * 1998-05-07 1999-11-30 Victor Co Of Japan Ltd 知識ベースシステム
CN103324704A (zh) * 2013-06-17 2013-09-25 深圳先进技术研究院 知识库动态更新方法和系统
US20140280307A1 (en) * 2013-03-15 2014-09-18 Google Inc. Question answering to populate knowledge base
CN106600298A (zh) * 2016-12-23 2017-04-26 国网山东省电力公司信息通信公司 基于工单数据分析的电力信息系统客服知识库构建方法
WO2017101591A1 (zh) * 2015-12-17 2017-06-22 华为技术有限公司 一种知识库构建方法、控制器
CN109408644A (zh) * 2018-09-03 2019-03-01 平安医疗健康管理股份有限公司 知识库更新方法、装置、计算机设备和存储介质
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN110110093A (zh) * 2019-04-08 2019-08-09 深圳众赢维融科技有限公司 一种基于知识图谱的识别方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327910A (ja) * 1998-05-07 1999-11-30 Victor Co Of Japan Ltd 知識ベースシステム
US20140280307A1 (en) * 2013-03-15 2014-09-18 Google Inc. Question answering to populate knowledge base
CN103324704A (zh) * 2013-06-17 2013-09-25 深圳先进技术研究院 知识库动态更新方法和系统
WO2017101591A1 (zh) * 2015-12-17 2017-06-22 华为技术有限公司 一种知识库构建方法、控制器
CN106600298A (zh) * 2016-12-23 2017-04-26 国网山东省电力公司信息通信公司 基于工单数据分析的电力信息系统客服知识库构建方法
CN109408644A (zh) * 2018-09-03 2019-03-01 平安医疗健康管理股份有限公司 知识库更新方法、装置、计算机设备和存储介质
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN110110093A (zh) * 2019-04-08 2019-08-09 深圳众赢维融科技有限公司 一种基于知识图谱的识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US9448999B2 (en) Method and device to detect similar documents
JP6196316B2 (ja) ユーザ投稿に基づいたコンテンツの配信の調整
KR101976220B1 (ko) 데이터 보강 제안 기법
US20130157234A1 (en) Storyline visualization
KR100930455B1 (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
TWI564737B (zh) Web search methods and devices
US10394939B2 (en) Resolving outdated items within curated content
CN103049575A (zh) 一种主题自适应的学术会议搜索系统
CN107526828B (zh) 页面信息推荐方法和装置
US10496686B2 (en) Method and system for searching and identifying content items in response to a search query using a matched keyword whitelist
CN108846021B (zh) 一种基于用户访问偏好模型的海量小文件存储方法
JP2016539401A (ja) 階層的データアーカイビング
JP6932360B2 (ja) オブジェクト検索方法、装置およびサーバ
US20200014530A1 (en) Citation and Attribution Management Methods and Systems
CN111368227B (zh) 一种url处理方法以及装置
CN111224923B (zh) 一种仿冒网站的检测方法、装置及系统
CN104516920A (zh) 数据查询方法和数据查询系统
US20140229496A1 (en) Information processing device, information processing method, and computer program product
CN113177095A (zh) 一种企业知识管理方法、系统、电子设备及存储介质
CN112328592A (zh) 数据存储方法、电子设备及计算机可读存储介质
CN109992469B (zh) 一种合并日志的方法及装置
CN111190899B (zh) 一种埋点数据处理方法、装置、服务器及存储介质
CN107430614B (zh) 到对应资源的应用局部深度链接
CN115114232A (zh) 一种历史版本对象列举方法、装置及其介质
CN104156373A (zh) 编码格式检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination