CN105354224A - 知识数据的处理方法和装置 - Google Patents

知识数据的处理方法和装置 Download PDF

Info

Publication number
CN105354224A
CN105354224A CN201510640181.9A CN201510640181A CN105354224A CN 105354224 A CN105354224 A CN 105354224A CN 201510640181 A CN201510640181 A CN 201510640181A CN 105354224 A CN105354224 A CN 105354224A
Authority
CN
China
Prior art keywords
knowledge data
structural
data
information
structural knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510640181.9A
Other languages
English (en)
Other versions
CN105354224B (zh
Inventor
张志明
张俊彬
王波
李羽
李�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510640181.9A priority Critical patent/CN105354224B/zh
Publication of CN105354224A publication Critical patent/CN105354224A/zh
Application granted granted Critical
Publication of CN105354224B publication Critical patent/CN105354224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种知识数据的处理方法和装置。所述处理方法包括:获取待检测的知识数据;从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据;根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突。采用本发明实施例,便于后续对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。

Description

知识数据的处理方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种知识数据的处理方法和装置。
背景技术
随着网络技术的发展,互联网已成为人们获取知识的重要手段之一,基于互联网的知识库应运而生。由于互联网的知识库通常由多个知识数据源构成,而不同知识数据源中同一个知识主题的知识数据可能不同,甚至会存在彼此冲突或错误,因此,在使用多个知识数据源中的知识数据构建知识库时,需要对其中的知识数据进行检测。
通常,可使用较简单的属性约束规则对知识数据进行检测,即将知识数据中的主体和/或客体的属性信息(如性别、年龄等)与预先设置的属性约束条件对比,如果主体和/或客体的属性信息满足属性约束条件,则该知识数据是正确的,如果主体和/或客体的属性信息不满足属性约束条件,则该知识数据是错误的。
前述知识数据的处理方法至少存在以下问题:
通过上述处理方法并不能够检测出知识库中存在信息冲突的所有知识数据,而仅能够检测出很少的一部分知识数据存在错误,知识库中仍然存在大量相互冲突的知识数据,从而使得知识库中知识数据的准确率较低。
发明内容
本发明的实施例提供一种知识数据的处理方法和装置,通过将由待检测的知识数据得到的第一结构化知识数据和已有的第二结构化知识数据进行比对,确定待检测的知识数据是否与已有的知识数据存在信息冲突,便于后续对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。
为达到上述目的,本发明的实施例提供了一种知识数据的处理方法。所述处理方法包括,获取待检测的知识数据;从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据;根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突。
可选地,所述知识冲突检测规则包括至少一个以下规则:主体冲突检测规则、谓词冲突检测规则和客体冲突检测规则。
可选地,所述处理方法还包括:根据预设的属性约束检测规则对所述第一结构化知识数据中的主体和/或客体的属性信息进行分析,确定所述第一结构化知识数据是否满足预设的属性约束条件,其中,所述属性信息包括性别信息、民族信息、年龄信息和/或体重信息。
可选地,所述根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突的处理包括:如果所述第二结构化知识数据中的任一结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的任意两项的内容信息相同,剩余项的内容信息不同,则确定所述第一结构化知识数据与所述第二结构化知识数据存在信息冲突。
可选地,所述处理方法还包括:如果所述第二结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的至少两项的内容信息不同,则将所述第一结构化知识数据标注为所述第二结构化知识数据。
可选地,所述第一结构化知识数据和所述第二结构化知识数据分别通过包括主体、谓词和客体的数据的三元组表征。
为达到上述目的,本发明的实施例还提供了一种知识数据的处理装置。所述处理装置包括:知识数据获取模块,用于获取待检测的知识数据;结构化知识获取模块,用于从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据;信息冲突确定模块,用于根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突。
可选地,所述知识冲突检测规则包括至少一个以下规则:主体冲突检测规则、谓词冲突检测规则和客体冲突检测规则。
可选地,所述处理装置还包括:属性约束检测模块,用于根据预设的属性约束检测规则对所述第一结构化知识数据中的主体和/或客体的属性信息进行分析,确定所述第一结构化知识数据是否满足预设的属性约束条件,其中,所述属性信息包括性别信息、民族信息、年龄信息和/或体重信息。
可选地,所述信息冲突确定模块用于:如果所述第二结构化知识数据中的任一结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的任意两项的内容信息相同,剩余项的内容信息不同,则确定所述第一结构化知识数据与所述第二结构化知识数据存在信息冲突。
可选地,所述处理装置还包括:结构化知识标注模块,用于如果所述第二结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的至少两项的内容信息不同,则将所述第一结构化知识数据标注为所述第二结构化知识数据。
本发明实施例提供的知识数据的处理方法和装置,通过从获取的待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据,并根据预设的知识冲突检测规则,将第一结构化知识数据和已有的第二结构化知识数据进行比对,确定待检测的知识数据是否与已有的知识数据存在信息冲突,便于后续对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。
附图说明
图1为本发明实施例提供的知识数据的处理方法的一种流程图;
图2为本发明实施例提供的知识数据的处理方法的另一种流程图;
图3为本发明实施例提供的知识数据的处理装置的一种结构示意图;
图4为本发明实施例提供的知识数据的处理装置的另一种结构示意图;
图5为本发明实施例提供的知识数据的处理装置的又一种结构示意图。
具体实施方式
本方案的发明构思是,通过从获取的待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据,并根据预设的知识冲突检测规则,将第一结构化知识数据和已有的第二结构化知识数据进行比对,确定待检测的知识数据是否与已有的知识数据存在信息冲突,便于后续对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。
下面结合附图对本发明实施例知识数据的处理方法和装置进行详细描述。
实施例一
图1是本发明实施例提供的知识数据的处理方法的流程图。通过包括如图3所示的装置的计算机系统执行所述处理方法。
如图1所示,在步骤S110,获取待检测的知识数据。
其中,知识数据可以为知识库中的一个语句或多个语句,例如,石家庄市地处河北省中南部,是河北省省会。知识库可以由多个知识源构成,例如,百度百科、维基百科和新闻网站等。
具体地,由于知识库由多个知识源构成,因此,来自于不同知识源的同一个主题的知识数据可能有真有假,为了给查询相应知识信息的用户提供正确的查询结果,可预先对知识库中的知识数据进行冲突检测。在进行冲突检测时,可从知识库中选取一条知识数据作为待检测的知识数据。
在步骤S120,从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据。
其中,主体可以是知识数据中的主语,谓词可以是知识数据中的谓语,客体可以是知识数据中的宾语。第一结构化知识数据可以是只由主体、谓词和客体的数据的三元组构成的知识数据。
具体地,当获取到待检测的知识数据后,可对所述待检测的知识数据进行语法结构分析,提取所述待检测的知识数据的主语、谓语、状语、定语和宾语等内容信息,然后,将其中的状语、定语和补语等内容信息删除,只保留主语、谓语和宾语的内容信息,将这些内容信息进行重新组合得到第一结构化知识数据。
在步骤S130,根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突。
其中,第二结构化知识数据可以是只由主体、谓词和客体的数据的三元组构成的知识数据。
具体地,可根据实际情况预先设置知识冲突检测规则,例如,用于检测所述第一结构化知识数据中的客体是否与已有的第二结构化知识数据中的客体存在冲突的规则。可通过预设的知识冲突检测规则对从知识库中提取的任一知识数据进行冲突检测,其中,如果待检测的知识数据对应的第一结构化知识数据为第一个被检测的结构化知识数据(即当前不存在第二结构化知识数据),则可将所述第一结构化知识数据标注为已有的结构化知识数据(即第二结构化知识数据),然后,继续对从知识库中提取的下一条知识数据进行冲突检测。在进行冲突检测的过程中,将所述下一条知识数据对应的结构化知识数据和已有的第二结构化知识数据进行比对,如果所述结构化知识数据和已有的第二结构化知识数据相同,则确定所述下一条知识数据与所述已有的知识数据不存在信息冲突,此时,可将所述下一条知识数据对应的结构化知识数据标注为已有的第二结构化知识数据,如果所述结构化知识数据和已有的第二结构化知识数据不同,则确定所述待检测的知识数据与所述已有的知识数据存在信息冲突,此时可以输出上述信息冲突的结果。
本发明实施例提供的知识数据的处理方法,通过从获取的待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据,并根据预设的知识冲突检测规则,将第一结构化知识数据和已有的第二结构化知识数据进行比对,确定待检测的知识数据是否与已有的知识数据存在信息冲突,便于后续对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。
实施例二
图2为本发明提供的知识数据的处理方法的另一个实施例的流程图,所述实施例可视为图1的又一种具体的实现方案。
如图2所示,在步骤S210,获取待检测的知识数据。
其中,步骤S210的步骤内容与上述实施例一中的步骤S110的步骤内容相同,在此不再赘述。
在步骤S220,从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据。
其中,步骤S220的步骤内容与上述实施例一中的步骤S120的步骤内容相同,在此不再赘述。
在步骤S230,根据预设的属性约束检测规则对所述第一结构化知识数据中的主体和/或客体的属性信息进行分析,确定所述第一结构化知识数据是否满足预设的属性约束条件,其中,所述属性信息包括性别信息、民族信息、年龄信息和/或体重信息。
其中,属性约束检测规则可根据实际情况设定,属性约束检测规则中可包括多种属性约束条件,例如,主体的性别为男,客体的性别为女等,本发明实施例中并不限于对主体和/或客体的性别的约束限制,还可以是对其民族、国籍和/年龄等的约束限制,再例如,某人与其父亲的年龄差值应大于等于16,又例如,成年人的体重应该在30千克~200千克之间等。所述第一结构化知识数据可通过包括主体、谓词和客体的数据的三元组表征。
具体地,当获取到第一结构化知识数据后,可先确定所述第一结构化知识数据是否满足预设的属性约束检测规则中设定的属性约束条件,具体处理可为:获取所述第一结构化知识数据中的主体、谓词和客体的内容信息,根据主体与客体之间的关系,以及主体和客体的内容信息,获取所述主体和客体的属性信息,然后,可对获取到的属性信息进行分析,确定所述第一结构化知识数据是否满足所述设定的属性约束条件。
在步骤S240,如果所述第一结构化知识数据不满足所述设定的属性约束条件,则确定所述待检测的知识数据中主体或客体的属性信息错误,此时,输出属性信息错误的提示信息。
此外,如果所述第一结构化知识数据满足所述设定的属性约束条件,则确定所述待检测的知识数据中主体或客体的属性信息正确,执行步骤S250或步骤S260的处理。
在步骤S250,如果所述第二结构化知识数据中的任一结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的任意两项的内容信息相同,剩余项的内容信息不同,(根据预设的知识冲突检测规则,在该条件下)则确定所述第一结构化知识数据与所述第二结构化知识数据存在信息冲突。
其中,所述第二结构化知识数据也可通过包括主体、谓词和客体的数据的三元组表征。
具体地,第二结构化知识数据可以多种方式存储,例如,所述第二结构化知识数据可随意存储,也可以知识主题的方式(即将属于同一知识主题的结构化知识数据存储在一个集合中)存储。为了能够详细了解所述第一结构化知识数据与所述第二结构化知识数据存在何种信息冲突,知识冲突检测规则可包括多种规则,本发明实施例中,知识冲突检测规则可包括至少一个以下规则:主体冲突检测规则、谓词冲突检测规则和客体冲突检测规则。相应地,信息冲突可包括主体冲突、谓词冲突和客体冲突。
其中,主体冲突规则可通过两个不同的主体是否与同一个客体之间存在相同的关系来表征,例如,某条结构化知识数据为:A的女儿是C,另一条结构化知识数据为:B的女儿是C,则这两条结构化知识数据存在主体冲突。谓词冲突规则可通过主体与客体之间存在互不相容的两种关系来表征,例如,某条结构化知识数据为:A的女儿是C,另一条结构化知识数据为:A的儿子是C,则这两条结构化知识数据存在谓词冲突。客体冲突规则可通过同一个主体与两个不同的客体之间存在同一种关系来表征,例如,某条结构化知识数据为:D的母亲是E,另一条结构化知识数据为:D的母亲是F,则这两条结构化知识数据存在客体冲突
为了便于通过预设的知识冲突检测规则对所述第一结构化知识数据进行冲突检测,可将第二结构化知识数据以知识主题的方式存储。具体地,获取第二结构化知识数据中每个结构化知识数据,并对所述每个结构化知识数据进行分析,得到相应的知识主题,将属于同一知识主题的结构化知识数据划分在同一数据集合中。
为了便于通过预设的知识冲突检测规则对所述第一结构化知识数据进行冲突检测,可将第二结构化知识数据以知识主题的方式存储,而对于同一知识主题中的结构化知识数据,在此基础上还可以进一步对其进行划分。具体地,获取第二结构化知识数据中每个结构化知识数据,并对所述每个结构化知识数据进行分析,得到相应的知识主题,将属于同一知识主题的结构化知识数据划分在同一数据集合中。对于处于同一数据集合中的结构化知识数据,可获取其包括的主体、谓词和客体等三项的内容信息,得到三元组的数据,然后,从所述三元组的主体、谓词和客体中任选两项,并从选择的两项的内容信息中任选一个内容信息,在该数据集合中查找包括选择的两项的内容信息的结构化知识数据,可将查找到的结构化知识数据划分为一组,这样可得到多组不同的结构化知识数据。例如,对于处于同一数据集合中的结构化知识数据,如果其包括的主体的内容信息有A、B和C,谓词的内容信息有P1和P2,客体的内容信息有D和E,则选取谓词的内容信息为P1、客体的内容信息为D,在该数据集合中查找包括P1和D的结构化知识数据归为一组,该组中的结构化知识数据的谓词和客体的内容信息都相同,而主体的内容信息可能相同,也可能不同。通过上述方法可以得到多组结构化知识数据。
基于对所述第二结构化知识数据以知识主题的方式存储的处理,在对所述第一结构化知识数据进行冲突检测时,可对第一结构化知识数据进行分析得到其所属的知识主题(为了后续表述方便,可称为第一知识主题),然后,获取所述第一结构化知识数据的主体、谓词和客体中的任意两项的内容信息,并将其与所述第二结构化知识数据中相应知识主题的结构化知识数据中的每个结构化知识数据进行对比,根据预设的知识冲突检测规则,如果两者中主体、谓词和客体中的任意两项的内容信息相同,剩余项的内容信息不同,则确定所述第一结构化知识数据与所述第二结构化知识数据存在信息冲突。例如,第二结构化知识数据中包括知识主题A和知识主题B,知识主题A中包括主体的内容信息D和E,谓词的内容信息P,客体的内容信息F,第一结构化知识数据所属的知识主题为A,第一结构化知识数据的主体的内容信息C,谓词的内容信息P,客体的内容信息F,可见第一结构化知识数据与知识主题A中结构化知识数据中的谓词和客体的内容信息相同,主体的内容信息不同,则可确定所述第一结构化知识数据与所述第二结构化知识数据存在主体冲突。此时,可将存在主体冲突的结构化知识数据输出。
另外,如果所述第二结构化知识数据中的每个结构化知识数据与所述第一结构化知识数据中主体、谓词和客体的内容信息都相同,则可确定所述第一结构化知识数据与所述第二结构化知识数据不存在信息冲突,此时,可将所述第一结构化知识数据标注为所述第二结构化知识数据。
需要说明的是,如果知识主题A中包括主体的内容信息C、D和E,则第一结构化知识数据与第二结构化知识数据中知识主题A中的部分结构化知识数据存在主体冲突,此时,可将存在主体冲突的结构化知识数据输出。另外,为了便于通过预设的知识冲突检测规则对所述第一结构化知识数据进行冲突检测,对于同一知识主题中的结构化知识数据还可以进一步对其进行划分。具体地,对于处于同一数据集合中的结构化知识数据,可获取其包括的主体、谓词和客体等三项的内容信息,然后,从主体、谓词和客体中任选两项,并从选择的两项的内容信息中任选一个内容信息,在该数据集合中查找包括选择的两项的内容信息的结构化知识数据,可将查找到的结构化知识数据划分为一组,这样可得到多组不同的结构化知识数据。例如,对于处于同一数据集合中的结构化知识数据,如果其包括的主体的内容信息有A、B和C,谓词的内容信息有P,客体的内容信息有D和E,则选取谓词的内容信息为P、客体的内容信息为D,在该数据集合中查找包括P和D的结构化知识数据归为一组,该组中的结构化知识数据的谓词和客体的内容信息都相同,而主体的内容信息可能相同,也可能不同。通过相同的方法可得到多组结构化知识数据。
在步骤S260,如果所述第二结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的至少两项的内容信息不同,则将所述第一结构化知识数据标注为所述第二结构化知识数据。
具体地,如果通过对所述第二结构化知识数据中每个结构化知识数据与所述第一结构化知识数据中主体、谓词和客体的内容信息的对比,确定两者中主体、谓词和客体中的两项的内容信息不同,剩余一项的内容信息不同,或者,三项的内容信息都不相同,则无法判定所述第一结构化知识数据属于所述第二结构化知识数据中的何种知识主题,进而无法确定所述第一结构化知识数据是否与所述第二结构化知识数据存在信息冲突,此时,可将所述第一结构化知识数据标注为所述第二结构化知识数据。基于上述处理,继续对知识库中的下一条待检测的知识数据执行上述步骤S210~步骤S260的处理,直到确定出知识库中的所有待检测的知识数据是否与所述已有的知识数据存在信息冲突,并输出相应的信息冲突结果为止。
本发明实施例提供的知识数据的处理方法,通过从获取的待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据,先根据预设的属性约束检测规则对所述第一结构化知识数据是否满足预设的属性约束条件进行判定,如果满足,则通过第二结构化知识数据与第一结构化知识数据中主体、谓词和客体的内容信息,确定待检测的知识数据是否与已有的知识数据存在信息冲突。如果两者存在信息冲突,则后续可对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。如果两者不存在信息冲突,则可重复执行上述处理。
实施例三
基于相同的技术构思,本发明实施例还提供了一种知识数据的处理装置。如图3所示,所述处理装置包括知识数据获取模块310、结构化知识获取模块320和信息冲突确定模块330。
知识数据获取模块310用于获取待检测的知识数据;
结构化知识获取模块320用于从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据;
信息冲突确定模块330用于根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突。
此外,所述知识冲突检测规则包括至少一个以下规则:主体冲突检测规则、谓词冲突检测规则和客体冲突检测规则。
进一步地,在图3所示实施例的基础上,如图4所示的处理装置还包括:属性约束检测模块340,用于根据预设的属性约束检测规则对所述第一结构化知识数据中的主体和/或客体的属性信息进行分析,确定所述第一结构化知识数据是否满足预设的属性约束条件,其中,所述属性信息包括性别信息、民族信息、年龄信息和/或体重信息。
此外,信息冲突确定模块330用于:如果所述第二结构化知识数据中的任一结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的任意两项的内容信息相同,剩余项的内容信息不同,则确定所述第一结构化知识数据与所述第二结构化知识数据存在信息冲突。
进一步地,在图4所示实施例的基础上,如图5所示的处理装置还包括:结构化知识标注模块350,用于如果所述第二结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的至少两项的内容信息不同,则将所述第一结构化知识数据标注为所述第二结构化知识数据。
另外,所述第一结构化知识数据和所述第二结构化知识数据分别通过包括主体、谓词和客体的数据的三元组表征。
本发明实施例提供的知识数据的处理装置,通过从获取的待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据,并根据预设的知识冲突检测规则,将第一结构化知识数据和已有的第二结构化知识数据进行比对,确定待检测的知识数据是否与已有的知识数据存在信息冲突,便于后续对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。
进一步地,本发明实施例中,通过从获取的待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据,先根据预设的属性约束检测规则对所述第一结构化知识数据是否满足预设的属性约束条件进行判定,如果满足,则通过第二结构化知识数据与第一结构化知识数据中主体、谓词和客体的内容信息,确定待检测的知识数据是否与已有的知识数据存在信息冲突。如果两者存在信息冲突,则后续可对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。如果两者不存在信息冲突,则可重复执行上述处理。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CDROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种知识数据的处理方法,其特征在于,所述处理方法包括:
获取待检测的知识数据;
从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据;
根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突。
2.根据权利要求1所述的处理方法,其特征在于,所述知识冲突检测规则包括至少一个以下规则:主体冲突检测规则、谓词冲突检测规则和客体冲突检测规则。
3.根据权利要求2所述的处理方法,其特征在于,所述处理方法还包括:
根据预设的属性约束检测规则对所述第一结构化知识数据中的主体和/或客体的属性信息进行分析,确定所述第一结构化知识数据是否满足预设的属性约束条件,其中,所述属性信息包括性别信息、民族信息、年龄信息和/或体重信息。
4.根据权利要求2所述的处理方法,其特征在于,所述根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突的处理包括:
如果所述第二结构化知识数据中的任一结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的任意两项的内容信息相同,剩余项的内容信息不同,则确定所述第一结构化知识数据与所述第二结构化知识数据存在信息冲突。
5.根据权利要求4所述的处理方法,其特征在于,所述处理方法还包括:
如果所述第二结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的至少两项的内容信息不同,则将所述第一结构化知识数据标注为所述第二结构化知识数据。
6.根据权利要求5所述的处理方法,其特征在于,所述第一结构化知识数据和所述第二结构化知识数据分别通过包括主体、谓词和客体的数据的三元组表征。
7.一种知识数据的处理装置,其特征在于,所述处理装置包括:
知识数据获取模块,用于获取待检测的知识数据;
结构化知识获取模块,用于从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据;
信息冲突确定模块,用于根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突。
8.根据权利要求7所述的处理装置,其特征在于,所述知识冲突检测规则包括至少一个以下规则:主体冲突检测规则、谓词冲突检测规则和客体冲突检测规则。
9.根据权利要求8所述的处理装置,其特征在于,所述处理装置还包括:
属性约束检测模块,用于根据预设的属性约束检测规则对所述第一结构化知识数据中的主体和/或客体的属性信息进行分析,确定所述第一结构化知识数据是否满足预设的属性约束条件,其中,所述属性信息包括性别信息、民族信息、年龄信息和/或体重信息。
10.根据权利要求9所述的处理装置,其特征在于,所述信息冲突确定模块用于:
如果所述第二结构化知识数据中的任一结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的任意两项的内容信息相同,剩余项的内容信息不同,则确定所述第一结构化知识数据与所述第二结构化知识数据存在信息冲突。
11.根据权利要求10所述的处理装置,其特征在于,所述处理装置还包括:
结构化知识标注模块,用于如果所述第二结构化知识数据与所述第一结构化知识数据中主体、谓词和客体中的至少两项的内容信息不同,则将所述第一结构化知识数据标注为所述第二结构化知识数据。
CN201510640181.9A 2015-09-30 2015-09-30 知识数据的处理方法和装置 Active CN105354224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510640181.9A CN105354224B (zh) 2015-09-30 2015-09-30 知识数据的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510640181.9A CN105354224B (zh) 2015-09-30 2015-09-30 知识数据的处理方法和装置

Publications (2)

Publication Number Publication Date
CN105354224A true CN105354224A (zh) 2016-02-24
CN105354224B CN105354224B (zh) 2019-07-23

Family

ID=55330197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510640181.9A Active CN105354224B (zh) 2015-09-30 2015-09-30 知识数据的处理方法和装置

Country Status (1)

Country Link
CN (1) CN105354224B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391682A (zh) * 2017-07-24 2017-11-24 京东方科技集团股份有限公司 知识验证方法、知识验证设备以及存储介质
CN108959290A (zh) * 2017-05-18 2018-12-07 日本电气株式会社 知识数据的处理方法和设备
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN111126055A (zh) * 2019-10-28 2020-05-08 国电南瑞科技股份有限公司 电网设备名称匹配方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009087996A1 (ja) * 2008-01-07 2009-07-16 Nec Corporation 情報抽出装置及び情報抽出システム
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN103905468A (zh) * 2014-04-23 2014-07-02 西安电子科技大学 网络访问控制系统中xacml框架扩展系统及方法
CN104751230A (zh) * 2015-04-03 2015-07-01 武汉理工大学 基于本体的稿件自动审查方法
CN104915717A (zh) * 2015-06-02 2015-09-16 百度在线网络技术(北京)有限公司 数据处理方法、知识库推理方法及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009087996A1 (ja) * 2008-01-07 2009-07-16 Nec Corporation 情報抽出装置及び情報抽出システム
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN103905468A (zh) * 2014-04-23 2014-07-02 西安电子科技大学 网络访问控制系统中xacml框架扩展系统及方法
CN104751230A (zh) * 2015-04-03 2015-07-01 武汉理工大学 基于本体的稿件自动审查方法
CN104915717A (zh) * 2015-06-02 2015-09-16 百度在线网络技术(北京)有限公司 数据处理方法、知识库推理方法及相关装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959290A (zh) * 2017-05-18 2018-12-07 日本电气株式会社 知识数据的处理方法和设备
CN107391682A (zh) * 2017-07-24 2017-11-24 京东方科技集团股份有限公司 知识验证方法、知识验证设备以及存储介质
CN107391682B (zh) * 2017-07-24 2020-06-09 京东方科技集团股份有限公司 知识验证方法、知识验证设备以及存储介质
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN111126055A (zh) * 2019-10-28 2020-05-08 国电南瑞科技股份有限公司 电网设备名称匹配方法及系统

Also Published As

Publication number Publication date
CN105354224B (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
US9886500B2 (en) System and method for providing technology assisted data review with optimizing features
CN107657048B (zh) 用户识别方法及装置
EP3584728B1 (en) Method and device for analyzing open-source license
CN113760891B (zh) 一种数据表的生成方法、装置、设备和存储介质
US20180212986A1 (en) Network attack detection method and device
CN111831852B (zh) 一种视频检索方法、装置、设备及存储介质
CN105488068B (zh) 搜索音乐和建立索引的方法及装置、搜索结果判断方法
CN106708886B (zh) 站内搜索词的显示方法及装置
US10614312B2 (en) Method and apparatus for determining signature actor and identifying video based on probability of appearance of signature actor
CN110704603A (zh) 一种通过资讯发掘当前热点事件的方法和装置
CN105354224A (zh) 知识数据的处理方法和装置
CN113728321A (zh) 利用训练表的集合来准确预测各种表内的错误
CN110555108B (zh) 事件脉络生成方法、装置、设备及存储介质
CN106202440B (zh) 数据处理方法、装置及设备
CN108009298B (zh) 一种互联网人物搜索信息整合分析控制方法
CN105243277A (zh) 一种计算机辅助医疗数据处理系统及方法
CN105740260A (zh) 提取模板文件数据结构的方法和装置
CN117873905A (zh) 一种代码同源检测的方法、装置、设备及介质
CN115641191B (zh) 一种基于数据分析的数据推送方法及ai系统
CN104239475A (zh) 一种时间序列数据分析方法及装置
CN109344254B (zh) 一种地址信息分类方法及装置
CN113536779B (zh) 基于公文标题的热门话题数据处理方法、装置及电子设备
CN112395377B (zh) 地址识别方法、装置和存储介质
CN117931997B (zh) 新闻事件的梳理方法及系统
US20230132618A1 (en) Method for denoising click data, electronic device and storage medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant