CN106682033A - 知识库核对方法和装置 - Google Patents

知识库核对方法和装置 Download PDF

Info

Publication number
CN106682033A
CN106682033A CN201510763532.5A CN201510763532A CN106682033A CN 106682033 A CN106682033 A CN 106682033A CN 201510763532 A CN201510763532 A CN 201510763532A CN 106682033 A CN106682033 A CN 106682033A
Authority
CN
China
Prior art keywords
information
knowledge base
checked
data source
correction data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510763532.5A
Other languages
English (en)
Inventor
钦滨杰
聂梦瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510763532.5A priority Critical patent/CN106682033A/zh
Publication of CN106682033A publication Critical patent/CN106682033A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识库核对方法和装置。其中,该方法包括:获取对比数据源的信息;将对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果;以及根据匹配结果对待核对知识库的信息进行操作。本申请解决了现有技术中人工核对知识库费时费力,遗漏率高且容易出错的技术问题。

Description

知识库核对方法和装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种知识库核对方法和装置。
背景技术
现代社会处于信息爆炸的时代,对信息的及时获取无论对个人还是对企业、政府、科研机构,都是非常重要的。一些企业、政府或者科研机构因此建立了知识库,来储存一些重要信息。然而,在建立知识库的过程中,由于某些原因,可能会出现一些错误,例如储存了一些错误的数据。这些错误的数据会严重影响知识库中信息的精确度。
目前,主要依靠人工去获取多个对比数据源,将对比数据源中的信息与知识库中的信息进行核对,进而判断是否需要对知识库中的信息进行更改,由于知识库中信息量庞大,因此使用人工耗时耗力,遗漏率高且容易出错。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种知识库核对方法和装置,以至少解决现有技术中人工核对知识库费时费力,遗漏率高且容易出错的技术问题。
根据本申请实施例的一个方面,提供了一种知识库核对方法,包括:获取对比数据源的信息;将所述对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果;以及根据所述匹配结果对所述待核对知识库的信息进行操作。
进一步地,所述对比数据源的数量为m,将所述对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果,根据所述匹配结果对所述待核对知识库的信息进行操作包括:将第i个所述对比数据源的信息与所述待核对知识库的信息进行匹配,得到第i匹配结果,并根据所述第i匹配结果对所述待核对知识库的信息进行操作,得到第i目标知识库;以及将第i+1个所述对比数据源的信息与所述第i目标知识库的信息进行匹配,得到第i+1匹配结果,并根据所述第i+1匹配结果对所述第i目标知识库的信息进行操作,其中,i依次取1至m-1。
进一步地,将第i个所述对比数据源的信息与所述待核对知识库的信息进行匹配,得到第i匹配结果,并根据所述第i匹配结果对所述待核对知识库的信息进行操作,得到第i目标知识库包括:依次将第i个所述对比数据源的每一条信息与所述待核对知识库的信息进行匹配;每匹配一次,根据当前次的匹配结果对所述待核对知识库的信息进行一次操作,并将操作后的所述待核对知识库作为下一次进行匹配的所述待核对知识库,直至将第i个所述对比数据源的最后一条信息与所述待核对知识库的信息进行匹配;以及根据与所述最后一条信息对应的匹配结果对所述待核对知识库的信息进行操作,得到所述第i目标知识库。
进一步地,根据所述匹配结果对所述待核对知识库的信息进行操作包括:在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息相匹配的情况下,确认所述待核对知识库的信息维持不变;以及在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息不相匹配的情况下,根据接收到的指令对所述待核对知识库进行操作。
进一步地,在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息不相匹配的情况下,根据接收到的指令对所述待核对知识库进行操作包括:在所述指令的指令标识为第一预设标识的情况下,利用所述对比数据源的信息更新所述待核对知识库的信息;以及在所述指令的指令标识为第二预设标识的情况下,确认所述待核对知识库的信息维持不变。
根据本申请实施例的一个方面,提供了一种知识库核对装置,包括:获取单元,用于获取对比数据源的信息;匹配单元,用于将所述对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果;以及操作单元,用于根据所述匹配结果对所述待核对知识库的信息进行操作。
进一步地,所述对比数据源的数量为m,所述匹配单元包括:第i匹配子单元,用于将第i个所述对比数据源的信息与所述待核对知识库的信息进行匹配,得到第i匹配结果,所述操作单元包括:第i操作子单元,用于根据所述第i匹配结果对所述待核对知识库的信息进行操作,得到第i目标知识库;所述匹配单元还包括:第i+1匹配子单元,用于将第i+1个所述对比数据源的信息与所述第i目标知识库的信息进行匹配,得到第i+1匹配结果,所述操作单元还包括:第i+1操作子单元,用于根据所述第i+1匹配结果对所述第i目标知识库的信息进行操作,其中,i依次取1至m-1。
进一步地,所述第i匹配子单元包括:匹配模块,用于依次将第i个所述对比数据源的每一条信息与所述待核对知识库的信息进行匹配,所述第i操作子单元包括:第一操作模块,用于在所述匹配模块每匹配一次的情况下,根据当前次的匹配结果对所述待核对知识库的信息进行一次操作,并将操作后的所述待核对知识库作为下一次进行匹配的所述待核对知识库,直至所述匹配模块将第i个所述对比数据源的最后一条信息与所述待核对知识库的信息进行匹配;以及第二操作模块,用于根据与所述最后一条信息对应的匹配结果对所述待核对知识库的信息进行操作,得到所述第i目标知识库。
进一步地,所述操作单元包括:确认子单元,用于在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息相匹配的情况下,确认所述待核对知识库的信息维持不变;以及操作子单元,用于在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息不相匹配的情况下,根据接收到的指令对所述待核对知识库进行操作。
进一步地,所述操作子单元包括:更新模块,用于在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息不相匹配的情况下,在所述指令的指令标识为第一预设标识的情况下,利用所述对比数据源的信息更新所述待核对知识库的信息;以及确认模块,用于在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息不相匹配的情况下,在所述指令的指令标识为第二预设标识的情况下,确认所述待核对知识库的信息维持不变。
在本申请实施例中,采用获取对比数据源的信息,将对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果,根据匹配结果对待核对知识库的信息进行操作。通过获取用来和待核对知识库进行对照的对比数据源的信息,将对比数据源中的信息和待核对知识库中的信息进行对比,得到匹配结果,再根据匹配结果对待核对知识库的信息进行操作,达到了自动进行知识库信息核对的目的,实现了高效准确核对知识库的技术效果,进而解决了现有技术中人工核对知识库费时费力,遗漏率高且容易出错的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的知识库核对方法的流程图;
图2是根据本申请实施例所提供的知识库核对方法进行知识库的核对的一种流程图;
图3是根据本申请实施例所提供的知识库核对方法进行知识库的核对的另一种流程图;以及
图4是根据本申请实施例的知识库核对装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种知识库核对方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的知识库核对方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取对比数据源的信息。
步骤S104,将对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果。
步骤S106,根据匹配结果对待核对知识库的信息进行操作。
在本申请实施例中,对比数据源可以是第三方数据源,该第三方数据源用于对待核对知识库进行信息核对,待核对知识库还可以具体是知识图谱。待核对知识库是需要进行核对的知识库,由于某些原因,待核对知识库中的信息有一部分是错误的,需要将待核对知识库中正确的信息加以确认,将错误的信息找出来并改正。对比数据源是用来和待核对知识库进行对照的数据库。对比数据源中有一些信息和待核对知识库中的信息是相同或相似的,例如二者都记录了某公司的地址和成立时间。根据匹配结果对待核对知识库的信息进行操作,对待核对知识库中的信息进行操作可以是添加新的信息,删除错误的信息,确认正确的信息,更改已有的信息,等等。
例如,待核对知识库中有一条信息I1如表1所示,对比数据源中有一条信息I2如表2所示。
表1
表2
将待核对知识库中的信息I1和对比数据源中的信息I2中表示公司名称的字段进行匹配,得到匹配度100%,因此信息I1和信息I2表示的是同一个公司的信息。将信息I1和信息I2中表示公司地址的字段进行匹配,发现匹配度100%,此时,不更改待核对知识库。将信息I1和信息I2中表示公司联系方式的字段进行匹配,发现匹配度为0,由人工核对后,发现待核对知识库的信息I1缺少公司联系方式的信息,将对比数据源中的信息I2中的“010-85999899”添加到信息I1表示公司联系方式的字段,此时,更新后的待核对知识库中的信息I1如表2所示。
再例如,待核对知识库中有一条信息I3如表3所示,对比数据源中有一条信息I4如表4所示。
表3
表4
将待核对知识库中的信息I3和对比数据源中的信息I4中表示公司名称的字段进行匹配,得到匹配度100%,因此信息I1和信息I2表示的是同一个公司的信息。将信息I3和信息I4中表示总部地点的字段进行匹配,发现匹配度100%,此时,不更改待核对知识库。将信息I3和信息I4中表示公司联系方式的字段进行匹配,发现匹配度100%,此时,不更改待核对知识库。将信息I3和信息I4中表示成立时间的字段进行匹配,发现匹配度很低,由人工核查后发现汇源公司的成立时间是1992年,即待核对知识库中的信息正确,而对比数据源中的信息错误,此时,不更改待核对知识库。
通过获取用来和待核对知识库进行对照的对比数据源的信息,将对比数据源中的信息和待核对知识库中的信息进行对比,得到匹配结果,再根据匹配结果对待核对知识库的信息进行操作,达到了自动进行知识库信息核对的目的,实现了高效准确核对知识库的技术效果,进而解决了现有技术中人工核对知识库费时费力,遗漏率高且容易出错的技术问题。
可选地,在本申请实施例中,可以采用多个对比数据源来核对待核对知识库中的信息,假设对比数据源的数量为m,m一般为10以内的数值,通常可以取2至3,当然,在不十分注重核对速度和效率的情况下,为了进一步提高核对的精确度,还可以将m的取值设置为大于3的其它自然数,但是,如果m取值太大的话,会导致运算量超大,严重影响核对的效率。对于采用多个对比数据源的情况,将对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果,根据匹配结果对待核对知识库的信息进行操作包括:将第i个对比数据源的信息与待核对知识库的信息进行匹配,得到第i匹配结果,并根据第i匹配结果对待核对知识库的信息进行操作,得到第i目标知识库;以及然后将第i+1个对比数据源的信息与第i目标知识库的信息进行匹配,得到第i+1匹配结果,并根据第i+1匹配结果对第i目标知识库的信息进行操作,其中,i依次取1至m-1。
即,对比数据源有多个。将第1个对比数据源的信息与待核对知识库的信息进行匹配,得到第1匹配结果,根据第1匹配结果对待核对知识库的信息进行操作,得到第1目标知识库。此时,第1目标知识库为待核对知识库。
将第2个对比数据源的信息与第1目标知识库的信息进行匹配,得到第2匹配结果,根据第2匹配结果对第1目标知识库的信息进行操作,得到第2目标知识库。此时,第2目标知识库为待核对知识库。
将第3个对比数据源的信息与第2目标知识库的信息进行匹配,得到第3匹配结果,根据第3匹配结果对第2目标知识库的信息进行操作,得到第3目标知识库。此时,第3目标知识库为待核对知识库。之后的步骤以此类推,直到将第m个对比数据源的信息与第m-1目标知识库的信息进行匹配,得到第m匹配结果,根据第m匹配结果对第m-1目标知识库的信息进行操作,得到第m目标知识库,其中,m为对比数据源的数量。
由于对比数据源中的信息也可能有错误,因此使用多个数据源与待核对知识库一一对比能够有效提高信息的可信度。并且每对比完一个数据源,就根据匹配结果将待核对知识库中的信息进行操作,及时更新了待核对知识库,提高了核对的效率和准确率。
可选地,利用任意一个对比数据源中的信息与待核对知识库中的信息进行核对过程中,可以利用该对比数据源中的每一条信息进行一一核对,以利用第i个对比数据源的信息对知识库中的信息进行核对为例进行说明,将第i个对比数据源的信息与待核对知识库的信息进行匹配,得到第i匹配结果,并根据第i匹配结果对待核对知识库的信息进行操作,得到第i目标知识库包括如下步骤:
依次将第i个对比数据源的每一条信息与待核对知识库的信息进行匹配,其中,每匹配一次,根据当前次的匹配结果对待核对知识库的信息进行一次操作,并将操作后的待核对知识库作为下一次进行匹配的待核对知识库,直至将第i个对比数据源的最后一条信息与待核对知识库的信息进行匹配;然后,根据与最后一条信息对应的匹配结果对待核对知识库的信息进行操作,得到第i目标知识库。
可选地,根据匹配结果对待核对知识库的信息进行操作包括:在匹配结果表示对比数据源的信息与待核对知识库的信息相匹配的情况下,确认待核对知识库的信息维持不变;以及在匹配结果表示对比数据源的信息与待核对知识库的信息不相匹配的情况下,根据接收到的指令对待核对知识库进行操作。
当匹配结果表明对比数据源中的信息与待核对知识库中的信息相匹配的情况下,此时,不对待核对知识库的信息做任何改变。当匹配结果表明对比数据源中的信息与待核对知识库的信息不匹配的情况下,由人工核对信息,判断待核对知识库中的信息是否正确,根据判断结果,发出指令,该指令用来对待核对知识库进行操作。
对比数据源中的信息与待核对知识库中的信息相匹配可以有两种方式:一种是对比数据源中的信息与待核对知识库中的信息完全相同,另一种是对比数据源中的信息与待核对知识库中的信息不完全相同,但匹配度高于阈值。阈值为提前设置的数值,匹配度大于或等于阈值即表明对比数据源中的信息与待核对知识库中的信息为相同含义的信息。可以利用字符串的匹配来计算两条信息之间的匹配度。
例如,对比数据源中有一条信息是“A公司的成立时间是2005年5月1日”,待核对知识库中也有一条信息是“A公司的成立时间是2005年5月1日”,使用预设的方法计算这两条信息之间的匹配度之后,发现匹配度为100%,此时,不对待核对知识库中的信息做任何改变。
再例如,对比数据源中有一条信息是“A公司的成立时间是2005年5月1日”,待核对知识库中有一条信息是“A公司的建立时间是2005年5月1日”,使用预设的方法计算这两条信息之间的匹配度之后,发现匹配度高于阈值,因此,这两条信息相匹配,此时,不对待核对知识库中的信息做任何改变。
当匹配结果表明对比数据源中的信息和待核对知识库中的信息不匹配,则由人工审核待核对知识库中的信息是否正确。
例如,对比数据源中有一条信息是“B公司的成立时间是2005年5月1日”,待核对知识库中有一条信息是“B公司的成立时间是1998年6月8日”,使用预设的方法计算这两条信息之间的匹配度之后,发现匹配度低于阈值,因此,这两条信息不匹配。由人工对B公司的成立时间进行查询和确定,发现B公司的成立时间是2005年5月1日,此时,将待核对知识库中的信息“B公司的成立时间是1998年6月8日”更改为“B公司的成立时间是2005年5月1日”。
可选地,在匹配结果表示对比数据源的信息与待核对知识库的信息不相匹配的情况下,根据接收到的指令对待核对知识库进行操作包括:在指令的指令标识为第一预设标识的情况下,利用对比数据源的信息更新待核对知识库的信息;以及在指令的指令标识为第二预设标识的情况下,确认待核对知识库的信息维持不变。
当对比数据源的信息与待核对知识库的信息不匹配的情况下,由人工进行核对。
当人工发现待核对知识库中的信息错误,而对比数据源中的信息正确的情况下,发出指令标识为第一预设标识的指令,该指令用于指示将待核对知识库中错误的信息更改为对比数据源中相对应的正确的信息。
当人工发现待核对知识库中的信息正确,而对比数据源中的信息错误的情况下,发出指令标识为第二预设标识的指令,该指令用于指示确认待核对知识库中的信息维持不变。
第一预设标识和第二预设标识可以有多种表示形式。
例如,计算机在计算出待核对知识库的某条信息和对比数据源的相应的信息之间的匹配度之后,由于匹配度小于阈值,计算机弹出信息框“是否需要更改待核对知识库中的这条数据?”
信息框下面有选择区域,选择区域具有两种标识,分别为“Y”和“N”。“Y”表示第一预设标识,如果核对人员点击“Y”,就会发出更改知识库的指令,计算机接收到该条指令后,知识库中的内容就会更改;“N”表示第二预设标识,如果核对人员点击“N”,就会发出确认知识库中的内容维持不变的指令,计算机接收到该条指令后,知识中的内容维持不变。
也可以用“√”表示第一预设标识,用“×”表示第二预设标识,等等。
图2是根据本申请实施例所提供的知识库核对方法进行知识库的核对的一种流程图。如图2所示,利用该方法进行知识库的核对主要包括以下步骤:
步骤S202,获取多个对比数据源的信息。步骤S202的具体实施方式与步骤S102相同。
步骤S204,将多个对比数据源的信息与待核对知识库的信息进行匹配,匹配不成功时,由人工进行审核并发出指令。步骤S204的具体实施方式与步骤S104相同。
步骤S206,接收指令,根据指令对待核对知识库中的信息进行操作。步骤S206的具体实施方式与步骤S106相同。
通过上述步骤,实现了高效准确核对知识库的技术效果,进而解决了现有技术中人工核对知识库费时费力,遗漏率高且容易出错的技术问题。
图3是根据本申请实施例所提供的知识库核对方法进行知识库的核对的另一种流程图。如图3所示,利用该方法进行知识库的核对主要包括以下步骤:
步骤S302,获取对比数据源1至对比数据源n的信息,并设置i=1。步骤S302的具体实施方式与上述步骤S102相同。
步骤S304,计算对比数据源i的某条信息与待核对知识库相应的信息的匹配度。步骤S304的具体实施方式与上述步骤S104相同。
步骤S306,判断匹配度是否大于或等于阈值。如果匹配度大于或等于阈值,执行步骤S308;如果匹配度小于阈值,执行步骤S310。
步骤S308,维持待核对知识库的信息不变。
步骤S310,根据接收到的指令对待核对知识库进行操作。步骤S306至步骤S310的具体实施方式与上述步骤S106相同。
步骤S312,判断对比数据源i的所有信息是否均与待核对知识库相应的信息匹配完毕。如果判断出对比数据源i中的所有信息均与待核对知识库相应的信息匹配完毕的情况下,执行步骤S314;如果判断出对比数据源i中存在信息未与待核对知识库相应的信息匹配的情况下,执行步骤S304。
步骤S314,判断i与n是否相等。如果判断出i与n不相等,执行步骤S316;如果判断出i与n相等,说明n个对比数据源均已经与待核对知识库对比完毕,结束。
步骤S316,将i+1的值赋值给i。
通过上述步骤,实现了高效准确核对知识库的技术效果,进而解决了现有技术中人工核对知识库费时费力,遗漏率高且容易出错的技术问题。
根据本申请实施例,还提供了一种知识库核对装置。该知识库核对装置可以执行上述知识库核对方法,上述知识库核对方法也可以通过该知识库核对装置实施。
图4是根据本申请实施例的知识库核对装置的示意图,如图4所示,该知识库核对装置主要包括获取单元10、匹配单元20和操作单元30,其中:
获取单元10用于获取对比数据源的信息。
匹配单元20用于将对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果。
操作单元30用于根据匹配结果对待核对知识库的信息进行操作。
在本申请实施例中,对比数据源可以是第三方数据源,该第三方数据源用于对待核对知识库进行信息核对,待核对知识库还可以具体是知识图谱。待核对知识库是需要进行核对的知识库,由于某些原因,待核对知识库中的信息有一部分是错误的,需要将待核对知识库中正确的信息加以确认,将错误的信息找出来并改正。对比数据源是用来和待核对知识库进行对照的数据库。对比数据源中有一些信息和待核对知识库中的信息是相同或相似的,例如二者都记录了某公司的地址和成立时间。根据匹配结果对待核对知识库的信息进行操作,对待核对知识库中的信息进行操作可以是添加新的信息,删除错误的信息,确认正确的信息,更改已有的信息,等等。
例如,待核对知识库中有一条信息I1如上表1所示,对比数据源中有一条信息I2如上表2所示。
将待核对知识库中的信息I1和对比数据源中的信息I2中表示公司名称的字段进行匹配,得到匹配度100%,因此信息I1和信息I2表示的是同一个公司的信息。将信息I1和信息I2中表示公司地址的字段进行匹配,发现匹配度100%,此时,不更改待核对知识库。将信息I1和信息I2中表示公司联系方式的字段进行匹配,发现匹配度为0,由人工核对后,发现待核对知识库的信息I1缺少公司联系方式的信息,将对比数据源中的信息I2中的“010-85999899”添加到信息I1表示公司联系方式的字段,此时,更新后的待核对知识库中的信息I1如表2所示。
再例如,待核对知识库中有一条信息I3如上表3所示,对比数据源中有一条信息I4如上表4所示。
将待核对知识库中的信息I3和对比数据源中的信息I4中表示公司名称的字段进行匹配,得到匹配度100%,因此信息I1和信息I2表示的是同一个公司的信息。将信息I3和信息I4中表示总部地点的字段进行匹配,发现匹配度100%,此时,不更改待核对知识库。将信息I3和信息I4中表示公司联系方式的字段进行匹配,发现匹配度100%,此时,不更改待核对知识库。将信息I3和信息I4中表示成立时间的字段进行匹配,发现匹配度很低,由人工核查后发现汇源公司的成立时间是1992年,即待核对知识库中的信息正确,而对比数据源中的信息错误,此时,不更改待核对知识库。
通过获取用来和待核对知识库进行对照的对比数据源的信息,将对比数据源中的信息和待核对知识库中的信息进行对比,得到匹配结果,再根据匹配结果对待核对知识库的信息进行操作,达到了自动进行知识库信息核对的目的,实现了高效准确核对知识库的技术效果,进而解决了现有技术中人工核对知识库费时费力,遗漏率高且容易出错的技术问题。
可选地,在本申请实施例中,可以采用多个对比数据源来核对待核对知识库中的信息,假设对比数据源的数量为m,匹配单元20主要包括第i匹配子单元和第i+1匹配子单元,操作单元30主要包括第i操作子单元和第i+1操作子单元。第i匹配子单元用于将第i个对比数据源的信息与待核对知识库的信息进行匹配,得到第i匹配结果,第i操作子单元用于根据第i匹配结果对待核对知识库的信息进行操作,得到第i目标知识库;第i+1匹配子单元用于将第i+1个对比数据源的信息与第i目标知识库的信息进行匹配,得到第i+1匹配结果,第i+1操作子单元用于根据第i+1匹配结果对第i目标知识库的信息进行操作,其中,i依次取1至m-1。
即,对比数据源有多个。将第1个对比数据源的信息与待核对知识库的信息进行匹配,得到第1匹配结果,根据第1匹配结果对待核对知识库的信息进行操作,得到第1目标知识库。此时,第1目标知识库为待核对知识库。
将第2个对比数据源的信息与第1目标知识库的信息进行匹配,得到第2匹配结果,根据第2匹配结果对第1目标知识库的信息进行操作,得到第2目标知识库。此时,第2目标知识库为待核对知识库。
将第3个对比数据源的信息与第2目标知识库的信息进行匹配,得到第3匹配结果,根据第3匹配结果对第2目标知识库的信息进行操作,得到第3目标知识库。此时,第3目标知识库为待核对知识库。之后的步骤以此类推,直到将第m个对比数据源的信息与第m-1目标知识库的信息进行匹配,得到第m匹配结果,根据第m匹配结果对第m-1目标知识库的信息进行操作,得到第m目标知识库,其中,m为对比数据源的数量。
由于对比数据源中的信息也可能有错误,因此使用多个对比数据源与待核对知识库一一对比能够有效提高信息的可信度。并且每对比完一个数据源,就根据匹配结果将待核对知识库中的信息进行操作,及时更新了待核对知识库,提高了核对的效率和准确率。
可选地,利用任意一个对比数据源中的信息与待核对知识库中的信息进行核对过程中,可以利用该对比数据源中的每一条信息进行一一核对,以利用第i个对比数据源的信息对知识库中的信息进行核对为例进行说明,第i匹配子单元包括匹配模块,第i操作子单元包括第一操作模块和第二操作模块。
其中,匹配模块用于依次将第i个对比数据源的每一条信息与待核对知识库的信息进行匹配。第一操作模块用于在匹配模块每匹配一次的情况下,根据当前次的匹配结果对待核对知识库的信息进行一次操作,并将操作后的待核对知识库作为下一次进行匹配的待核对知识库,直至匹配模块将第i个对比数据源的最后一条信息与待核对知识库的信息进行匹配;第二操作模块用于根据与最后一条信息对应的匹配结果对待核对知识库的信息进行操作,得到第i目标知识库。
可选地,操作单元30包括确定子单元和操作子单元,该确认子单元用于在匹配结果表示对比数据源的信息与待核对知识库的信息相匹配的情况下,确认待核对知识库的信息维持不变;该操作子单元用于在匹配结果表示对比数据源的信息与待核对知识库的信息不相匹配的情况下,根据接收到的指令对待核对知识库进行操作。
当匹配结果表明对比数据源中的信息与待核对知识库中的信息相匹配的情况下,此时,不对待核对知识库的信息做任何改变。当匹配结果表明对比数据源中的信息与待核对知识库的信息不匹配的情况下,由人工核对信息,判断待核对知识库中的信息是否正确,根据判断结果,发出指令,该指令用来对待核对知识库进行操作。
对比数据源中的信息与待核对知识库中的信息相匹配可以有两种方式:一种是对比数据源中的信息与待核对知识库中的信息完全相同,另一种是对比数据源中的信息与待核对知识库中的信息不完全相同,但匹配度高于阈值。阈值为提前设置的数值,匹配度大于或等于阈值即表明对比数据源中的信息与待核对知识库中的信息为相同含义的信息。可以利用字符串的匹配来计算两条信息之间的匹配度。
例如,对比数据源中有一条信息是“A公司的成立时间是2005年5月1日”,待核对知识库中也有一条信息是“A公司的成立时间是2005年5月1日”,使用预设的方法计算这两条信息之间的匹配度之后,发现匹配度为100%,此时,不对待核对知识库中的信息做任何改变。
再例如,对比数据源中有一条信息是“A公司的成立时间是2005年5月1日”,待核对知识库中有一条信息是“A公司的建立时间是2005年5月1日”,使用预设的方法计算这两条信息之间的匹配度之后,发现匹配度高于阈值,因此,这两条信息相匹配,此时,不对待核对知识库中的信息做任何改变。
当匹配结果表明对比数据源中的信息和待核对知识库中的信息不匹配,则由人工审核待核对知识库中的信息是否正确。
例如,对比数据源中有一条信息是“B公司的成立时间是2005年5月1日”,待核对知识库中有一条信息是“B公司的成立时间是1998年6月8日”,使用预设的方法计算这两条信息之间的匹配度之后,发现匹配度低于阈值,因此,这两条信息不匹配。由人工对B公司的成立时间进行查询和确定,发现B公司的成立时间是2005年5月1日,此时,将待核对知识库中的信息“B公司的成立时间是1998年6月8日”更改为“B公司的成立时间是2005年5月1日”。
可选地,操作子单元包括更新模块和确定模块,其中,更新模块用于在匹配结果表示对比数据源的信息与待核对知识库的信息不相匹配的情况下,在指令的指令标识为第一预设标识的情况下,利用对比数据源的信息更新待核对知识库的信息;确认模块用于在匹配结果表示对比数据源的信息与待核对知识库的信息不相匹配的情况下,在指令的指令标识为第二预设标识的情况下,确认待核对知识库的信息维持不变。
当对比数据源的信息与待核对知识库的信息不匹配的情况下,由人工进行核对。
当人工发现待核对知识库中的信息错误,而对比数据源中的信息正确的情况下,发出指令标识为第一预设标识的指令,该指令用于指示将待核对知识库中错误的信息更改为对比数据源中相对应的正确的信息。
当人工发现待核对知识库中的信息正确,而对比数据源中的信息错误的情况下,发出指令标识为第二预设标识的指令,该指令用于指示确认待核对知识库中的信息维持不变。
第一预设标识和第二预设标识可以有多种表示形式。
例如,计算机在计算出待核对知识库的某条信息和对比数据源的相应的信息之间的匹配度之后,由于匹配度小于阈值,计算机弹出信息框“是否需要更改待核对知识库中的这条数据?”
信息框下面有选择区域,选择区域具有两种标识,分别为“Y”和“N”。“Y”表示第一预设标识,如果核对人员点击“Y”,就会发出更改知识库的指令,计算机接收到该条指令后,知识库中的内容就会更改;“N”表示第二预设标识,如果核对人员点击“N”,就会发出确认知识库中的内容维持不变的指令,计算机接收到该条指令后,知识库中的内容维持不变。
也可以用“√”表示第一预设标识,用“×”表示第二预设标识,等等。
所述知识库核对装置包括处理器和存储器,上述获取单元10、匹配单元20和操作单元30等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来自动进行知识库信息的核对。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取对比数据源的信息。将对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果。根据匹配结果对待核对知识库的信息进行操作。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种知识库核对方法,其特征在于,包括:
获取对比数据源的信息;
将所述对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果;以及
根据所述匹配结果对所述待核对知识库的信息进行操作。
2.根据权利要求1所述的方法,其特征在于,所述对比数据源的数量为m,将所述对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果,根据所述匹配结果对所述待核对知识库的信息进行操作包括:
将第i个所述对比数据源的信息与所述待核对知识库的信息进行匹配,得到第i匹配结果,并根据所述第i匹配结果对所述待核对知识库的信息进行操作,得到第i目标知识库;以及
将第i+1个所述对比数据源的信息与所述第i目标知识库的信息进行匹配,得到第i+1匹配结果,并根据所述第i+1匹配结果对所述第i目标知识库的信息进行操作,其中,i依次取1至m-1。
3.根据权利要求2所述的方法,其特征在于,将第i个所述对比数据源的信息与所述待核对知识库的信息进行匹配,得到第i匹配结果,并根据所述第i匹配结果对所述待核对知识库的信息进行操作,得到第i目标知识库包括:
依次将第i个所述对比数据源的每一条信息与所述待核对知识库的信息进行匹配;
每匹配一次,根据当前次的匹配结果对所述待核对知识库的信息进行一次操作,并将操作后的所述待核对知识库作为下一次进行匹配的所述待核对知识库,直至将第i个所述对比数据源的最后一条信息与所述待核对知识库的信息进行匹配;以及
根据与所述最后一条信息对应的匹配结果对所述待核对知识库的信息进行操作,得到所述第i目标知识库。
4.根据权利要求1所述的方法,其特征在于,根据所述匹配结果对所述待核对知识库的信息进行操作包括:
在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息相匹配的情况下,确认所述待核对知识库的信息维持不变;以及
在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息不相匹配的情况下,根据接收到的指令对所述待核对知识库进行操作。
5.根据权利要求4所述的方法,其特征在于,在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息不相匹配的情况下,根据接收到的指令对所述待核对知识库进行操作包括:
在所述指令的指令标识为第一预设标识的情况下,利用所述对比数据源的信息更新所述待核对知识库的信息;以及
在所述指令的指令标识为第二预设标识的情况下,确认所述待核对知识库的信息维持不变。
6.一种知识库核对装置,其特征在于,包括:
获取单元,用于获取对比数据源的信息;
匹配单元,用于将所述对比数据源的信息与待核对知识库的信息进行匹配,得到匹配结果;以及
操作单元,用于根据所述匹配结果对所述待核对知识库的信息进行操作。
7.根据权利要求6所述的装置,其特征在于,所述对比数据源的数量为m,
所述匹配单元包括:第i匹配子单元,用于将第i个所述对比数据源的信息与所述待核对知识库的信息进行匹配,得到第i匹配结果,
所述操作单元包括:第i操作子单元,用于根据所述第i匹配结果对所述待核对知识库的信息进行操作,得到第i目标知识库;
所述匹配单元还包括:第i+1匹配子单元,用于将第i+1个所述对比数据源的信息与所述第i目标知识库的信息进行匹配,得到第i+1匹配结果,
所述操作单元还包括:第i+1操作子单元,用于根据所述第i+1匹配结果对所述第i目标知识库的信息进行操作,其中,i依次取1至m-1。
8.根据权利要求7所述的装置,其特征在于,
所述第i匹配子单元包括:匹配模块,用于依次将第i个所述对比数据源的每一条信息与所述待核对知识库的信息进行匹配,
所述第i操作子单元包括:
第一操作模块,用于在所述匹配模块每匹配一次的情况下,根据当前次的匹配结果对所述待核对知识库的信息进行一次操作,并将操作后的所述待核对知识库作为下一次进行匹配的所述待核对知识库,直至所述匹配模块将第i个所述对比数据源的最后一条信息与所述待核对知识库的信息进行匹配;以及
第二操作模块,用于根据与所述最后一条信息对应的匹配结果对所述待核对知识库的信息进行操作,得到所述第i目标知识库。
9.根据权利要求6所述的装置,其特征在于,所述操作单元包括:
确认子单元,用于在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息相匹配的情况下,确认所述待核对知识库的信息维持不变;以及
操作子单元,用于在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息不相匹配的情况下,根据接收到的指令对所述待核对知识库进行操作。
10.根据权利要求9所述的装置,其特征在于,所述操作子单元包括:
更新模块,用于在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息不相匹配的情况下,在所述指令的指令标识为第一预设标识的情况下,利用所述对比数据源的信息更新所述待核对知识库的信息;以及
确认模块,用于在所述匹配结果表示所述对比数据源的信息与待核对知识库的信息不相匹配的情况下,在所述指令的指令标识为第二预设标识的情况下,确认所述待核对知识库的信息维持不变。
CN201510763532.5A 2015-11-10 2015-11-10 知识库核对方法和装置 Pending CN106682033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510763532.5A CN106682033A (zh) 2015-11-10 2015-11-10 知识库核对方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510763532.5A CN106682033A (zh) 2015-11-10 2015-11-10 知识库核对方法和装置

Publications (1)

Publication Number Publication Date
CN106682033A true CN106682033A (zh) 2017-05-17

Family

ID=58865299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510763532.5A Pending CN106682033A (zh) 2015-11-10 2015-11-10 知识库核对方法和装置

Country Status (1)

Country Link
CN (1) CN106682033A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182203A (zh) * 2017-12-12 2018-06-19 浪潮软件集团有限公司 一种数据核对方法及装置
CN108734393A (zh) * 2018-05-14 2018-11-02 平安好房(上海)电子商务有限公司 房源信息的匹配方法、用户设备、存储介质及装置
CN109947797A (zh) * 2017-07-31 2019-06-28 华为技术有限公司 一种数据检查装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324704A (zh) * 2013-06-17 2013-09-25 深圳先进技术研究院 知识库动态更新方法和系统
CN103391311A (zh) * 2013-06-24 2013-11-13 北京奇虎科技有限公司 一种多平台之间数据一致性校验的方法和系统
CN103678655A (zh) * 2013-12-23 2014-03-26 国家电网公司 一种信息校核方法和装置
CN103929759A (zh) * 2014-04-18 2014-07-16 中国联合网络通信有限公司广西壮族自治区分公司 一种基于病历的移动网网络优化方法及网络优化系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324704A (zh) * 2013-06-17 2013-09-25 深圳先进技术研究院 知识库动态更新方法和系统
CN103391311A (zh) * 2013-06-24 2013-11-13 北京奇虎科技有限公司 一种多平台之间数据一致性校验的方法和系统
CN103678655A (zh) * 2013-12-23 2014-03-26 国家电网公司 一种信息校核方法和装置
CN103929759A (zh) * 2014-04-18 2014-07-16 中国联合网络通信有限公司广西壮族自治区分公司 一种基于病历的移动网网络优化方法及网络优化系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947797A (zh) * 2017-07-31 2019-06-28 华为技术有限公司 一种数据检查装置及方法
CN109947797B (zh) * 2017-07-31 2022-04-05 华为技术有限公司 一种数据检查装置及方法
CN108182203A (zh) * 2017-12-12 2018-06-19 浪潮软件集团有限公司 一种数据核对方法及装置
CN108734393A (zh) * 2018-05-14 2018-11-02 平安好房(上海)电子商务有限公司 房源信息的匹配方法、用户设备、存储介质及装置

Similar Documents

Publication Publication Date Title
CN110704633B (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN107766807A (zh) 电子装置、投保牲畜识别方法和计算机可读存储介质
CN107070852A (zh) 网络攻击检测方法和装置
CN106815194A (zh) 模型训练方法及装置和关键词识别方法及装置
CN107632995A (zh) 随机森林模型训练的方法及模型训练控制系统
CN108496190B (zh) 用于从电子数据结构中提取属性的注释系统
CN108197668A (zh) 模型数据集的建立方法及云系统
CN110033206A (zh) 物料清单自动校核方法及装置
CN103995908A (zh) 一种数据导入方法及装置
CN103473076A (zh) 一种代码版本的发布方法及系统
CN106682033A (zh) 知识库核对方法和装置
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN107491536A (zh) 一种试题校验方法、试题校验装置及电子设备
CN111680480A (zh) 基于模板的作业批改方法、装置、计算机设备及存储介质
CN107391557A (zh) 针对设置链外勘误表的区块链串行查询方法及系统
CN111414950B (zh) 基于标注者专业度管理的矿石图片标注方法和系统
CN106649210A (zh) 一种数据转换方法及装置
CN104298570B (zh) 数据处理方法和装置
CN112948429B (zh) 一种数据报送方法、装置和设备
CN110458184A (zh) 光学字符识别辅助方法、装置、计算机设备及存储介质
CN106612338A (zh) 设备标识信息的处理方法和装置
CN106776348B (zh) 测试用例管理方法和装置
CN102831172A (zh) 一种对企业专利数据库中数据处理的方法及装置
CN106484893A (zh) 机型批量整改中的差异数据查找方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170517